セマンティック・セグメンテーションのパワーを発見してください。アプリケーションとツールをご覧ください!
セマンティックセグメンテーションはコンピュータビジョン(CV)の基本的なタスクであり、画像内の1つ1つのピクセルに特定のクラスラベルを割り当てる。オブジェクトを識別したり、画像全体を分類したりする他の視覚タスクとは異なり、セマンティックセグメンテーションは、シーンの内容をピクセルレベルで詳細に理解する。つまり、単に車があることを検出するだけでなく、どのピクセルが車のカテゴリーに属するかを正確に輪郭を描き、道路、空、歩行者に属するピクセルと区別する。これは、画像を異なる物体カテゴリに対応する意味のある領域に分割し、視覚環境の包括的な理解を提供することを目的としている。
セマンティックセグメンテーションの主な目的は、画像内の各ピクセルを、あらかじめ定義された一連のカテゴリーに分類することである。たとえば、複数の車、歩行者、樹木を含む画像では、セマンティック・セグメンテーション・モデルは、車を構成するすべてのピクセルを「車」、歩行者を構成するすべてのピクセルを「歩行者」、樹木を構成するすべてのピクセルを「樹木」とラベル付けする。これは、同じオブジェクトクラスのすべてのインスタンスを同じように扱う。
最新のセマンティックセグメンテーションは、ディープラーニング、特に畳み込みニューラルネットワーク(CNN)に大きく依存している。これらのモデルは通常、教師あり学習技法を使用して学習され、詳細なピクセルレベルの注釈を含む大規模なデータセットを必要とする。このプロセスでは、画像をネットワークに入力して、セグメンテーション・マップを出力する。このマップは基本的に、各ピクセルの値(多くの場合、色で表される)が予測されるクラスラベルに対応する画像であり、「道路」、「建物」、「人物」などの異なるカテゴリーを視覚的に分離する。データのラベリングの質は、正確なモデルを学習するために非常に重要である。
セマンティック・セグメンテーションを、関連するコンピュータ・ビジョンのタスクと区別することは重要である:
セマンティックセグメンテーションによって得られる詳細なシーン理解は、多くの実世界アプリケーションにとって極めて重要である:
セマンティックセグメンテーションには、ディープラーニングモデル、特にCNNから派生したアーキテクチャが用いられることが多い。