セマンティック・セグメンテーションのパワーを発見してください。アプリケーションとツールをご覧ください!
セマンティックセグメンテーションは、画像内の1つ1つのピクセルに特定のクラスラベルを割り当てる、コンピュータビジョンの基本的なタスクである。オブジェクトを識別したり、画像全体を分類したりする他のビジョンタスクとは異なり、セマンティックセグメンテーションでは、シーンの内容をピクセルレベルで詳細に理解することができる。つまり、単に車があることを検出するだけでなく、どのピクセルが車のカテゴリーに属するかを正確にアウトライン化し、道路、空、歩行者に属するピクセルと区別する。
セマンティックセグメンテーションの主な目的は、画像をさまざまなオブジェクトカテゴリーに対応する意味のある領域に分割することである。たとえば、複数の車、歩行者、樹木を含む画像では、セマンティック・セグメンテーション・モデルは、車を構成するすべてのピクセルを「車」、歩行者を構成するすべてのピクセルを「歩行者」、樹木を構成するすべてのピクセルを「樹木」とラベル付けする。これは、同じオブジェクトクラスのすべてのインスタンスを同じように扱う。これは、画像全体に単一のラベルを割り当てる画像分類や、検出されたオブジェクトの周囲に境界ボックスを描画するが、その正確な形状の輪郭を描画しないオブジェクト検出とは対照的である。
セマンティック・セグメンテーション・モデルは通常、教師あり学習技法を使用して学習され、詳細なピクセルレベルの注釈を持つデータセットを必要とする。出力は通常、セグメンテーションマップである。セグメンテーションマップは、各ピクセルの値(または色)が、予測されるクラスラベルに対応する画像である。
セマンティック・セグメンテーションを関連する作業と区別することは重要である:
セマンティックセグメンテーションによって得られる詳細なシーン理解は、多くの実世界アプリケーションにとって極めて重要である:
セマンティック・セグメンテーションは、ディープラーニング・モデル、特に畳み込みニューラルネットワーク(CNN)を採用することが多い。完全畳み込みネットワーク(FCN)やU-Netのようなアーキテクチャーがよく使われる。最新のモデルは Ultralytics YOLOv8のような最新のモデルも、セグメンテーションタスクに強力な機能を提供する。Ultralytics HUBのようなツールは、トレーニング、COCOのようなデータセットの管理、セグメンテーションモデルの効率的なデプロイを行うためのプラットフォームを提供します。