インスタンス・セグメンテーションがピクセル・レベルの精度でオブジェクト検出を精緻化し、AIアプリケーション用の詳細なオブジェクト・マスクを実現する方法をご覧ください。
インスタンスセグメンテーションは、画像内のオブジェクトを識別し、個々のインスタンスの正確な境界をピクセルレベルで定義する、高度なコンピュータビジョン(CV)技術である。オブジェクトの周囲にボックスを配置するだけの手法とは異なり、インスタンス・セグメンテーションでは、検出されたすべてのオブジェクトに対して一意のマスクを作成することで、たとえそれらが同じクラスに属していたとしても、シーンをより詳細に理解することができる。この機能は、個別のオブジェクトの正確な形状、サイズ、および空間的な範囲を知ることが不可欠である高度な人工知能(AI)アプリケーション、特にオブジェクトが重なり合っている場合に極めて重要である。
インスタンスのセグメンテーションモデルは、画像を解析して、まず潜在的なオブジェクトを見つけ、次に、検出された各オブジェクトについて、どのピクセルがその特定のインスタンスに属するかを予測する。従来のアプローチは、有力なマスク R-CNNアーキテクチャのように、多くの場合、2 段階のプロセスを採用している。第 1 に、オブジェクト検出を実行してバウンディングボックスの提案を生成し、第 2 に、提案された各ボックス内でセグメンテーションマスクを生成する。効果的ではあるが、これらの手法は計算負荷が大きい。
最近のアプローチには、次のようなモデルがある。 Ultralytics YOLOのようなモデルを含む最近のアプローチでは、シングルステージパイプラインを使用することが多い。これらのモデルは、ニューラルネット ワーク(NN)を一回通すだけで、バウンディングボックス、クラスラベル、インスタン スマスクを同時に予測するため、速度が大幅に向上し、リアルタイム推論に適している。これらのモデルの学習には、広く使用されているCOCOデータセットのような、ピクセルレベルの注釈を持つ大規模なデータセット、特にそのセグメンテーション注釈が必要である。このプロセスには通常、複雑な視覚的特徴を学習するために畳み込みニューラルネットワーク(CNN)を活用したディープラーニング(DL)技術が含まれる。
インスタンスセグメンテーションを他の画像セグメンテーション作業と区別することは重要である:
インスタンス・セグメンテーションは、特に個々のオブジェクト・インスタンスを検出して区別することに重点を置き、オブジェクトの境界と分離に関して高い精度を提供する。
個々の物体を正確に識別し、分離する能力により、インスタンスのセグメンテーションは多くの分野で貴重なものとなっている:
Ultralytics 、効率的なインスタンスのセグメンテーションを実行できる最先端のモデルを提供します。以下のようなモデル YOLOv8や YOLO11などのモデルは、インスタンスのセグメンテーション(セグメンテーションタスクの詳細を参照)など、さまざまなコンピュータビジョンタスクで高い性能を発揮するように設計されています。ユーザーは、Ultralytics HUBプラットフォームのようなツールを使用して、事前に訓練されたモデルを活用したり、カスタムデータセットで微調整を行ったりすることができます。実践的な実装のために、事前にトレーニングされたUltralytics YOLOv8 モデルによるセグメンテーションのチュートリアルや、セグメンテーションオブジェクトの分離に関するガイドなどのリソースが用意されています。また、 Ultralytics YOLO11 インスタンスセグメンテーションに使用する方法を学ぶこともできます。人気のあるフレームワーク PyTorchや TensorFlowなどの一般的なフレームワークは、これらのモデルの開発とデプロイによく使用されます。