インスタンス・セグメンテーションとは何か、どのように機能するのか、様々なコンピュータ・ビジョン・アプリケーションでの使用方法、そしてそれがもたらす影響について詳しく見ていきましょう。
道路状況を監視する交通カメラから店舗のセルフレジに至るまで、コンピューター・ビジョンのアプリケーションは日常生活で一般的になってきている。機械が人間と同様の方法で視覚データを理解できるようにすることで、ビジョンAIはさまざまな業界に影響を与えている。
これらのアプリケーションの多くは、画像内の主要なオブジェクトの周囲にバウンディングボックスを配置するコンピュータビジョンのタスクであるオブジェクト検出に依存している。このアプローチはしばしばうまく機能するが、画像解析ソリューションの中には、さらに高い精度が必要なものもある。
例えば、医療用画像処理では、単に腫瘍を検出するだけでなく、その正確な形状の輪郭を描くことが重要です。同様に、ロボット工学では、機械が物体を正確に把握するために、物体の正確な輪郭を認識する必要がある。このような課題に対処するために、インスタンス・セグメンテーションはより正確なソリューションを提供する。
インスタンス・セグメンテーションは、オブジェクトの検出だけでは不十分なユースケースをサポートするために設計されたコンピュータ・ビジョンのタスクである。次のようなコンピュータビジョンモデルがあります。 Ultralytics YOLO11のようなコンピュータビジョンモデルを使用すると、インスタンスセグメンテーションを画像や動画に簡単に適用できる。
このガイドでは、インスタンスセグメンテーションがどのように機能するのか、そのアプリケーション、そしてUltralytics YOLO11 特定のセグメンテーションタスクのためにどのようにカスタムトレーニングすることができるのかを説明します。
例えば、近くに立っている人々の集合写真があるとしよう。オブジェクト検出は各人の周りにボックスを描くのに役立ちますが、正確な形はわかりません。
一方、インスタンス・セグメンテーションは、一人一人の輪郭を注意深くなぞるようなもので、たとえ重なり合っていても、その輪郭を完全に把握することができる。単にボックスでどこに何があるかを示すのではなく、各オブジェクトの正確な形状をピクセルレベルで特定するため、複雑な画像の理解が容易になる。
その結果、オブジェクトの形状を埋める詳細なマスクとなり、どのピクセルがオブジェクトに属するかを正確に特定する。このレベルの精度は、オブジェクトの正確な形状と境界を理解することが重要である多くの実世界のアプリケーションで有用です。
インスタンス・セグメンテーションを調べているうちに、セマンティック・セグメンテーションという概念に出会うかもしれない。
どちらの手法も、コンピュータが画像をピクセルレベルで理解するのに役立つが、その目的は異なる。セマンティック・セグメンテーションは、すべてのピクセルにカテゴリに基づくラベ ルを付け、同じ種類のオブジェクトをすべてグループ化する。たとえば、複数の自動車が写っている画像では、セマンティック・セグメンテーションは、個々の自動車を区別することなく、すべての自動車を「自動車」としてマークする。
一方、インスタンス・セグメンテーションは、各オブジェクトを個別に識別することで、さらに一歩進んだセグメンテーションを行う。個々のインスタンスに固有のラベルを割り当て、その形状の周囲に正確なマスクを作成する。つまり、同じ画像でも、インスタンスセグメンテーションでは、すべてを「車」とラベル付けするのではなく、それぞれの車を個別に認識し、輪郭を描くことになる。
この 2 つの主な違いは、セマンティックセグメンテーションでは、オブジェクトをカテゴリ別に グループ化するのに対し、インスタンスセグメンテーションでは、各オブジェクトを明確な境界を持つ固有のエンティティ として区別することです。どちらのタスクを使用するかは、画像に何が写っているかが分かれば十分なのか、それとも個々のオブジェクトを区別することが重要なのかなど、特定のアプリケーションによって異なります。
現在、Vision AIコミュニティには、さまざまなインスタンス分割モデルがある。より高速なもの、より正確なもの、より使いやすいものがある。
これらのオプションは便利ではあるが、特定のタスクに使用するにはどれが正しいのかという疑問が生じる。選択肢の中では、Ultralytics YOLO モデルがスピードと正確さに重点を置いているため、かなり人気がある。
また、これらのモデルは年々大きく進化している。例えば Ultralytics YOLOv5は、PyTorchようなフレームワークを使用してデプロイを簡素化し、高度なVision AIを、深い技術的専門知識を必要とせずに、より多くの人々が利用できるようにしました。
その成功の上に Ultralytics YOLOv8は、インスタンスのセグメンテーション、ポーズ推定、画像分類などのコンピュータビジョンタスクのサポートを強化した。
そして今、YOLO11 11はパフォーマンスを新たなレベルに引き上げた。COCOデータセットにおいて、YOLOv8m22%少ないパラメータで高い平均精度(mAP)を達成。
簡単に言えば、YOLO11 11は効率を犠牲にすることなく最先端の精度を実現し、現場でのゲームチェンジャーとなっている。
次に、インスタンスのセグメンテーションが一般的にどのように行われるかを見てみよう。古いコンピュータビジョンモデルでは、2 段階のアプローチを使用します。
まず、オブジェクトの周囲にバウンディングボックスを描くことでオブジェクトを検出する。次に、各オブジェクトの正確な形状の輪郭を描くために、ピクセルレベルのマスクを生成する。よく知られている例はマスクR-CNNで、これはマスク予測ステップを追加することで物体検出モデルを構築している。この方法は効果的であるが、画像を多段階で処理するため処理速度が遅くなり、リアルタイムでの応用が難しくなる。
一方、YOLO11 ようなモデルは画像を一度に処理し、オブジェクトのバウンディングボックスとインスタンスのセグメンテーションマスクを同時に予測する。この合理的なアプローチにより、高い精度を維持したまま、より高速に処理できる。その結果、速度と精度の両方が重要な、自律走行、ビデオ解析、ロボット工学のようなリアルタイムアプリケーションに特に有用である。
YOLO11 、事前に学習されたモデルとして提供される。COCO-Segデータセットで学習され、インスタンスのセグメンテーションのために日常的なオブジェクトをカバーしています。しかし、Ultralytics Python パッケージはカスタムトレーニングをサポートしており、ユニークなオブジェクトをセグメンテーションする必要がある特殊なアプリケーションには不可欠です。
なぜカスタムトレーニングやモデルの微調整が重要なのでしょうか?カスタムトレーニングは、事前にトレーニングされたモデルに既に組み込まれている知識を基に構築することで、転移学習を活用します。ゼロから始めるのではなく、より少ないデータセットと少ない計算リソースで、既存のモデルを新しいタスクに適応させます。
YOLO11 セグメンテーションを微調整する手順を詳しく見てみよう:
インスタンス・セグメンテーションは、機械が物体をより正確に見て理解できるようにすることで、実世界の課題を解決するために使用できる。自動化の改善から環境保護まで、インスタンスセグメンテーションは多くの分野で重要な役割を果たしている。それでは、インスタンス・セグメンテーションがどのような分野で効果を発揮しているのか、いくつかの例を挙げてみよう。
インスタンス・セグメンテーションは、建設現場における安全性と効率性を確保する上で重要な役割を果たす。例えば、重機の監視に利用できる。
YOLO11 、クレーン車、掘削機、ブルドーザーなど、さまざまな種類の機械を正確にセグメント化して識別し、それらの位置をリアルタイムで追跡するように微調整することができます。これにより、現場管理者は、機械が指定されたエリア内で厳密に動作し、作業員がいるゾーンや危険が存在するゾーンに侵入しないことを確認することができます。
また、このようなソリューションをリアルタイムの警告システムと統合することで、迅速な是正措置を取ることができる。さらに、収集された洞察は、現場のレイアウトやワークフローの最適化に役立ち、リスクをさらに低減し、生産性を高めることができる。
動物の行動モニタリングは、研究者、農家、保護活動家が、さまざまな環境の動物をよりよく世話するのに役立つ。インスタンスセグメンテーションは、農場、動物園、自然の生息地で、個々の動物を識別し、セグメンテーションすることで、これらのシステムで役立つ役割を果たす。バウンディングボックスを使用する従来のオブジェクト検出とは異なり、インスタンスセグメンテーションは、各動物のピクセルレベルの区切りを提供する。
詳細なセグメンテーションにより、動きや行動をより正確に追跡できる。重なり合っている動物や密接に集まっている動物を明確に認識することができ、相互作用、健康評価、活動パターンのより正確な分析が可能になります。全体として、動物の行動に対するより深い洞察は、動物のケアと管理の実践を強化します。
正確な選手とイベントのトラッキングは、スポーツ分析の大きな部分を占めています。従来のトラッキング方法は手作業によるタグ付けに頼っており、詳細なインタラクションを捉えることができない場合がありました。コンピュータビジョンを使用することで、各選手、ボール、重要なイベントなどの詳細をピクセルレベルでセグメント化し、詳細な洞察を得ることができます。
例えば、インスタンスのセグメンテーションは、各選手とオブジェクトを明確に分離することで、ファウルやオフボールインシデントのようなイベントを検出するのに役立ちます。YOLO11 ようなモデルが可能にするこのきめ細かなモニタリングは、アナリストにより明確な情報を提供し、動きのパターン、空間的なポジショニング、相互作用を高い精度で調査します。これらの洞察の主な利点は、チームが戦略を洗練させ、全体的なパフォーマンスを向上させるのに役立つことです。
インスタンス・セグメンテーションが様々な業界にもたらす主なメリットをいくつか紹介しよう:
これらの利点は、インスタンス・セグメンテーションがさまざまなユースケースにどのような影響を与えるかを浮き彫りにする一方で、その実装に伴う課題を考慮することも不可欠である。
以下は、インスタンス・セグメンテーションの主な限界である:
インスタンス・セグメンテーションは、オブジェクトが重なり合っていても、個々のオブジェクトを正確に区別することを可能にする。ピクセルレベルでオブジェクトの境界を捉えることで、オブジェクト検出のような従来のコンピュータビジョンタスクと比較して、視覚データをより深く理解することができる。
最近のコンピュータビジョンの進歩により、インスタンスのセグメンテーションがより高速で使いやすくなっている。特に、Ultralytics YOLO11 ようなコンピュータビジョンモデルは、プロセスを簡素化し、最小限のセットアップでリアルタイムのセグメンテーションを可能にするため、さまざまな業界やアプリケーションで利用しやすくなっている。
AIに興味がありますか?GitHubリポジトリにアクセスし、私たちのコミュニティとつながって探求を続けましょう。ソリューションのページで、自動運転車のAIや 農業のビジョンAIのようなイノベーションについて学びましょう。ライセンスオプションをチェックして、コンピュータビジョンプロジェクトを始めましょう!