パノプティック・セグメンテーションが、AIアプリケーションにおける正確なピクセルレベルのシーン理解のために、セマンティック・セグメンテーションとインスタンス・セグメンテーションをどのように統合しているかをご覧ください。
パノプティックセグメンテーションは、各画素にクラスラベルと一意なインスタンスIDの両方を割り当てることで、画像の完全かつ首尾一貫した理解を提供することを目的とした、高度なコンピュータビジョンタスクである。セグメンテーションは、各画素にカテゴリ(「車」、「道路」、「空」など)のラベルを付けるセマンティックセグメンテーションと、個々のオブジェクトのインスタンス(「車1」、「車2」など)を識別して区別するインスタンスセグメンテーションという、2つの主要なセグメンテーションパラダイムを効果的に統合したものである。目標は、同じクラスの異なるオブジェクトを区別し、また、しばしば「もの」(道路、空、植生など)と呼ばれる非定形の背景領域と、数えられる「もの」(車、歩行者、自転車など)を識別する、シーンの包括的なピクセルレベルのマップを作成することである。この全体的なアプローチは、セマンティックセグメンテーションやインスタンスセグメンテーションだけよりも、豊かなシーンコンテキストを提供する。
パノプティック・セグメンテーション・アルゴリズムは、画像を処理して1つの出力マップを生成する。このマップでは、すべてのピクセルに意味ラベルが付与され、数えられるオブジェクト("thing")に属する場合は、一意のインスタンスIDが付与される。背景領域("物")に属するピクセルは、同じ意味ラベルを共有するが、通常、一意のインスタンスIDを持たない(または、物カテゴリごとに単一のIDを共有する)。最新のアプローチでは、ディープラーニング、特に畳み込みニューラルネットワーク(CNN)やトランスフォーマーに基づくアーキテクチャを活用することが多い。セマンティック・セグメンテーションとインスタンス・セグメンテーションに別々のネットワーク・ブランチを使用し、その結果を融合させる手法もあれば、オリジナルの"Panoptic Segmentation "論文で紹介されているように、パノプティック・タスクのために特別に設計されたエンド・ツー・エンドのモデルを採用する手法もある。これらのモデルのトレーニングには、COCO Panopticデータセットや Cityscapesデータセットのような、詳細なパノプティックアノテーションを持つデータセットが必要である。性能は多くの場合、セグメンテーション品質と認識品質を組み合わせたPanoptic Quality(PQ)メトリクスを用いて測定される。
パノプティック・セグメンテーションと関連するコンピュータ・ビジョン・タスクの違いを理解することは非常に重要である:
パノプティック・セグメンテーションは、セマンティック・セグメンテーションとインスタンス・セグメンテーションの長所を独自に組み合わせ、すべてのピクセルを、クラスラベルの付いた背景領域か、あるいは別個のオブジェクト・インスタンスのいずれかにセグメンテーションする統一的な出力を提供する。
パノプティックセグメンテーションが提供する包括的なシーン理解は、さまざまな領域で価値がある:
YOLO11 ようなUltralytics モデルは、オブジェクト検出や インスタンスセグメンテーションのようなタスクで最先端のパフォーマンスを提供しますが、全視野セグメンテーションは、ますます高度化するAIアプリケーションに不可欠な、統合されたシーン理解の次のレベルを表しています。Ultralytics HUBのようなプラットフォームを使って、関連するタスクのモデルを管理し、トレーニングすることができます。