グリーンチェック
クリップボードにコピーされたリンク

マスクR-CNNとは何ですか?

Mask R-CNNを使用して、画像やビデオ内のオブジェクトを正確にセグメント化し、さまざまな分野で活用する方法をご紹介します。

倉庫内のロボット、交通量の多い道路を安全に移動する自動運転車、農作物をチェックするドローン、工場で製品を検査するAIシステムなどのイノベーションは、AIの導入が進むにつれて一般的になりつつある。これらのイノベーションを推進する重要な技術は、機械が視覚データを理解・解釈することを可能にするAIの一分野であるコンピューター・ビジョンである。

例えば、オブジェクト検出は、バウンディングボックスを使用して画像内のオブジェクトを識別し、位置を特定するのに役立つコンピュータビジョンタスクです。バウンディングボックスは有用な情報を提供しますが、オブジェクトの位置の大まかな推定を提供するだけで、正確な形状や境界を捉えることはできません。そのため、正確な識別を必要とするアプリケーションではあまり効果的ではありません。

この問題を解決するために、研究者たちは物体の輪郭を正確にとらえ、より正確な検出と解析のためのピクセルレベルの詳細を提供するセグメンテーションモデルを開発した。

Mask R-CNNはこれらのモデルの1つである。Facebook AI Research(FAIR)によって2017年に導入されたこのモデルは、R-CNN、Fast R-CNN、Faster R-CNNといった以前のモデルをベースにしている。コンピュータビジョンの歴史における重要なマイルストーンとして、Mask R-CNNは以下のようなより高度なモデルへの道を開いた。 Ultralytics YOLO11.

この記事では、マスクR-CNNとは何か、どのように機能するのか、その応用例、そしてYOLO11至るまでにどのような改良が加えられたのかを探る。

マスクR-CNNの概要

マスクR-CNN(Mask Region-based Convolutional Neural Networkの略)は、物体検出やインスタンスのセグメンテーションのようなコンピュータビジョンのタスクのために設計されたディープラーニングモデルである。 

インスタンス・セグメンテーションは、画像内のオブジェクトを識別するだけでなく、各オブジェクトの輪郭を正確に描写することで、従来のオブジェクト検出を超える。検出されたすべての物体に一意のラベルを割り当て、その正確な形状をピクセルレベルでキャプチャする。この詳細なアプローチにより、重なり合うオブジェクトを明確に区別し、複雑な形状を正確に扱うことが可能になる。

Mask R-CNNはFaster R-CNNの上に構築されており、物体を検出しラベル付けするが、その正確な形状は定義しない。マスクR-CNNは、各オブジェクトを構成する正確なピクセルを識別することによってこれを改善し、より詳細で正確な画像解析を可能にする。

図1.物体検出とインスタンス分割の比較。

マスクR-CNNのアーキテクチャーとその仕組み

Mask R-CNN は、段階的なアプローチで物体を正確に検出し、分割する。ディープニューラルネットワーク(データから学習する多層モデル)を使用して主要な特徴を抽出することから始め、次に領域提案ネットワーク(オブジェクトの可能性が高い領域を提案するコンポーネント)を使用して潜在的なオブジェクト領域を特定し、最後に各オブジェクトの正確な形状をキャプチャする詳細なセグメンテーションマスク(オブジェクトの正確な輪郭)を作成することによって、これらの領域を絞り込む。

次に、マスクR-CNNがどのように機能するかを知るために、各ステップを説明する。

図2.マスクR-CNNのアーキテクチャの概要。

特徴抽出から始める

マスクR-CNNのアーキテクチャーにおける最初のステップは、モデルが画像の中身を理解できるように、画像を重要な部分に分解することだ。写真を見て、形、色、エッジなどの細部に自然に気づくのと同じだと考えてほしい。このモデルは、「バックボーン」と呼ばれるディープ・ニューラル・ネットワーク(ResNet-50やResNet-101が多い)を使って同様のことを行います。

画像中の物体は非常に小さいことも非常に大きいこともあるので、マスクR-CNNは特徴ピラミッド・ネットワークを使用する。これは、モデルが細部と全体像の両方を見ることができる異なる拡大鏡を持っているようなもので、あらゆる大きさの物体に確実に気づくことができる。

これらの重要な特徴が抽出されると、モデルは画像内の潜在的なオブジェクトの位置を特定し、さらなる解析の舞台を整える。

画像内のオブジェクトがある可能性のある領域を提案

画像が主要な特徴について処理された後、領域提案ネットワークが引き継ぐ。モデルのこの部分は画像を見て、オブジェクトが含まれそうな領域を提案する。

これは、アンカーと呼ばれる複数の可能性のあるオブジェクトの位置を生成することによって行われる。その後、ネットワークはこれらのアンカーを評価し、最も有望なものをさらなる分析のために選択する。こうすることで、このモデルは、画像内のすべての場所をチェックするのではなく、最も興味深い可能性の高い領域のみに焦点を当てる。

図3.地域提案ネットワークの例。

抽出された特徴の強化 

重要な領域が特定されたので、次のステップは、これらの領域から抽出された詳細を絞り込むことである。以前のモデルでは、ROIプーリング(Region of Interest Pooling)と呼ばれる手法を使って各領域から特徴を抽出していましたが、この手法では領域のサイズを変更する際にわずかなズレが生じることがあり、特に小さいオブジェクトや重なり合ったオブジェクトに対しては効果が低くなっていました。

マスクR-CNNはROIアライン(Region of Interest Align)と呼ばれるテクニックを使うことでこれを改善します。ROIアラインはROIプーリングのように座標を四捨五入する代わりに、バイリニア補間を用いてピクセル値をより正確に推定します。バイリニア補間は4つの最も近いピクセルの値を平均して新しいピクセル値を計算する方法です。これにより、特徴が元の画像と正しく整列され、より正確なオブジェクト検出とセグメンテーションが可能になります。

例えば、サッカーの試合では、近くに立っている2人の選手がバウンディングボックスが重なっているため、互いに見間違えることがあります。ROI Alignは、それぞれの形状を明確に保つことで、両者を分離するのに役立ちます。 

図4.マスクR-CNNはROIアラインを使用する。

物体を分類し、そのマスクを予測する

ROI Align が画像を処理すると、次のステップはオブジェクトの分類と位置の微調整を行います。モデルは抽出された各領域を見て、それがどのオブジェクトを含むかを決定します。異なるカテゴリに確率スコアを割り当て、最もマッチするものを選びます。

同時に、オブジェクトによりフィットするようにバウンディングボックスを調整する。初期のボックスは理想的に配置されていない可能性があるため、各ボックスが検出されたオブジェクトをしっかりと囲むようにすることで、精度の向上に役立ちます。

最後に、マスクR-CNNはさらなるステップを踏む。各オブジェクトの詳細なセグメンテーションマスクを並行して生成するのだ。

マスクR-CNNとそのリアルタイムアプリケーション

このモデルが登場したとき、AIコミュニティは大きな興奮に包まれ、すぐにさまざまなアプリケーションで使用されるようになった。リアルタイムで物体を検出し、セグメント化するその能力は、さまざまな業界においてゲームチェンジャーとなった。

例えば、野生の絶滅危惧動物を追跡するのは困難な作業だ。多くの種は密林の中を移動するため、自然保護活動家が追跡するのは難しい。従来の方法では、カメラトラップ、ドローン、衛星画像などを使用するが、手作業でこれらのデータを整理するのは時間がかかる。誤認や見落としは保護活動の妨げになる。

マスクR-CNNは、トラの縞模様やキリンの斑点、ゾウの耳の形といったユニークな特徴を認識することで、画像や動画内の動物をより高い精度で検出し、セグメント化することができる。動物の一部が木に隠れていたり、近くに立っている場合でも、このモデルは動物を分離し、それぞれを個別に識別することができるため、野生動物のモニタリングがより迅速かつ信頼性の高いものになります。

図5.マスクR-CNNによる動物の検出とセグメンテーション。

マスクR-CNNの限界

物体検出とセグメンテーションにおけるその歴史的重要性にもかかわらず、マスクR-CNNにはいくつかの重要な欠点もある。以下に、マスクR-CNNに関するいくつかの課題を挙げる:

  • 高い計算需要:強力なGPUに依存するため、実行コストが高くなり、大量のデータを処理するときに遅くなる可能性がある。

  • 処理速度の遅さ:多段階処理であるため、YOLOような高速リアルタイムモデルに比べて処理速度が遅く、時間にシビアなタスクには向かないかもしれない。

  • 高品質データへの依存:このモデルは、鮮明でラベル付けされた画像で最高の性能を発揮する。不鮮明な画像や照明の不十分な画像は精度を著しく低下させる。
  • 複雑な実装:マルチステージアーキテクチャは、特に大規模なデータセットや限られたリソースを扱う場合、セットアップや最適化が困難になる可能性がある。

マスクR-CNNからUltralytics YOLO11

マスクR-CNNはセグメンテーションタスクには最適だったが、多くの産業がスピードとリアルタイム性能を優先しながらコンピュータビジョンの導入を検討していた。この要求により、研究者は1回のパスで物体を検出する1ステージモデルを開発し、効率を大幅に向上させた。

マスクR-CNNの多段階プロセスとは異なり、YOLO (You Only Look Once)のような1段階のコンピュータビジョンモデルは、リアルタイムコンピュータビジョンタスクに焦点を当てている。検出とセグメンテーションを別々に処理する代わりに、YOLO モデルは画像を一度に分析することができます。そのため、自律走行、ヘルスケア、製造、ロボット工学など、迅速な意思決定が重要なアプリケーションに最適です。

特にYOLO11 、高速かつ高精度という点でさらに一歩進んでいる。YOLOv8m 22%少ないパラメータを使用しながらも、COCOデータセットの平均平均精度(mAP)は高く、より正確に物体を検出します。処理速度が向上したため、ミリ秒単位が重要なリアルタイム・アプリケーションに適しています。

図6.他のモデルと比較したYOLO11パフォーマンス。

要点

コンピュータビジョンの歴史を振り返ると、マスクR-CNNは物体検出とセグメンテーションにおける大きなブレークスルーとして認識されている。その詳細なマルチステッププロセスにより、複雑な設定でも非常に正確な結果を提供する。 

しかし、この同じプロセスは、YOLOようなリアルタイムモデルに比べて遅くなります。スピードと効率の必要性が高まるにつれて、多くのアプリケーションは、高速で正確な物体検出を提供するUltralytics YOLO11ような1ステージモデルを使用するようになりました。マスクR-CNNはコンピュータビジョンの進化を理解する上で重要ですが、リアルタイムソリューションへのトレンドは、より迅速で効率的なコンピュータビジョンソリューションへの需要の高まりを浮き彫りにしています。

成長中のコミュニティに参加しよう!GitHubリポジトリでAIについてもっと学びましょう。独自のコンピュータビジョンプロジェクトを始める準備はできていますか?ライセンスオプションをご覧ください。農業におけるAIと ヘルスケアにおけるビジョンAIについては、ソリューションのページをご覧ください! 

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう