パノプティック・セグメンテーションが、AIアプリケーションにおける正確なピクセルレベルのシーン理解のために、セマンティック・セグメンテーションとインスタンス・セグメンテーションをどのように統合しているかをご覧ください。
パノプティックセグメンテーション(Panoptic Segmentation)は、ビジュアルシーンの完全かつ詳細な理解をピクセルレベルで達成するために設計された、高度なコンピュータビジョン技術である。パノプティックセグメンテーションは、セマンティックセグメンテーションとインスタンスセグメンテーションという、他の2つの主要なセグメンテーション手法の長所を独自に組み合わせたものである。パノプティックセグメンテーションの主な目的は、画像内の1つ1つのピクセルにクラスラベル(「車」、「人」、「道路」、「空」のような)とインスタンスID(同じクラスの異なるオブジェクトを区別する)の両方を割り当て、シーンの豊かで統一された解釈を提供することである。
汎化セグメンテーションを理解するためには、関連するタスクと比較することが役に立つ。物体検出は、バウンディングボックスを使用して物体を識別するが、ピクセルレベルの詳細が欠けている。セマンティックセグメンテーションは、各ピクセルをカテゴリーに分類する(たとえば、すべての車に「car」というラベルを付ける)が、同じカテゴリー内の個々のオブジェクトを区別することはできない。インスタンスセグメンテーションは、各オブジェクトのインスタンス(例:車 1、車 2)を検出してセグメンテーションすることでこの問題に対処しますが、通常は数えられるオブジェクト(「モノ」)に焦点を当て、背景領域(草、空、道路などの「モノ」)を無視する場合があります。
パノプティックセグメンテーションは、より全体的なシーン理解を提供することで、このギャップを埋める。すべてのピクセルに意味的なラベルを割り当て、それが「モノ」クラス(車両、歩行者、動物などの数えられるオブジェクト)に属するか、「モノ」クラス(道路、壁、空などの非定形領域)に属するかを判定する。重要なのは、「モノ」クラスに属するピクセルに対しては、一意のインスタンスIDも割り当て、各オブジェクトを同じタイプの他のオブジェクトから分離することである。この包括的なラベリングにより、分類されないピクセルはなく、画像の完全な解析が可能になります。
汎化セグメンテーションモデルは通常、ディープラーニングアーキテクチャに依存している。これらのモデルは多くの場合、共有特徴抽出器(バックボーンネットワーク)に続いて、すべてのピクセルの意味ラベルと「もの」クラスのインスタンスマスクを予測する特殊なヘッドまたはブランチを使用する。これらのブランチからの出力は、インテリジェントに結合または融合され、最終的なパノプティックセグメンテーションマップを生成する。
パノプティックセグメンテーションが提供する包括的なシーン理解は、様々な領域で非常に価値がある:
汎光セグメンテーションは複雑な作業であるが、次のようなモデルの進歩がある。 Ultralytics YOLOのようなモデルは、セグメンテーション性能の限界を押し広げつつある。次のようなモデル Ultralytics YOLOv8などのモデルは、関連する画像セグメンテーションタスクに強力な機能を提供し、より複雑な知覚システムを構築するための基盤を形成します。ユーザーは、Ultralytics HUBのようなプラットフォームを活用することで、カスタムデータセットでのモデルのトレーニングや、様々なモデル展開オプションの検討など、合理化されたワークフローを実現することができます。