X
Ultralytics YOLOv8.2 リリースUltralytics YOLOv8.2 モバイル・リリースUltralytics YOLOv8.2 リリース・アロー
グリーンチェック
クリップボードにコピーされたリンク

R-CNNとは?概要

RCNN と、RCNN が物体検出に与える影響について説明します。その主要なコンポーネント、アプリケーション、およびFast RCNNや YOLO.

物体検出 は、 自動運転監視医用画像などのアプリケーション向けに、画像やビデオ内の物体を認識して位置を特定できるコンピュータービジョンタスクです。Viola-Jones 検出器や Histogram of Oriented Gradients (HOG) with Support Vector Machines (SVM) などの初期の物体検出方法は、手作業で作られた特徴とスライド ウィンドウに依存していました。これらの方法では、さまざまな形状やサイズの複数のオブジェクトがある複雑なシーンでオブジェクトを正確に検出するのに苦労することがよくありました。

領域ベースの畳み込みニューラルネットワーク(R-CNN)は、物体検出への取り組み方を変えました。これは、コンピューター ビジョンの歴史における重要なマイルストーンです。モデルが YOLOv8 まず、R-CNNのようなモデルを理解する必要があります。 

Ross Girshick氏と彼のチームによって作成されたR-CNNモデルアーキテクチャは、領域の提案を生成し、事前トレーニング済みの畳み込みニューラルネットワーク(CNN)を使用して特徴を抽出し、オブジェクトを分類し、境界ボックスを絞り込みます。気が遠くなるような作業に思えるかもしれませんが、この記事を読み終える頃には、R-CNN がどのように機能し、なぜこれほどまでに影響力があるのかを明確に理解できるでしょう。さっそく見ていきましょう!

R-CNN はどのように機能しますか?

R-CNN モデルのオブジェクト検出プロセスには、領域提案の生成、特徴の抽出、境界ボックスの調整によるオブジェクトの分類という 3 つの主要な手順が含まれます。では、各ステップを見ていきましょう。

図1. R-CNN のしくみ。

地域提案:RCNNのバックボーン

最初のステップでは、R-CNN モデルが画像をスキャンして、多数のリージョン提案を作成します。リージョン提案は、オブジェクトを含む可能性のある領域です。選択的検索などの方法は、色、質感、形状など、画像のさまざまな側面を調べ、さまざまな部分に分解するために使用されます。選択的検索では、まず画像を小さな部分に分割し、次に類似した部分をマージして、より大きな関心領域を形成します。このプロセスは、約 2,000 の地域提案が生成されるまで続きます。

図2. 選択的検索のしくみ。

これらの領域提案は、オブジェクトが存在する可能性のあるすべてのスポットを特定するのに役立ちます。次の手順では、モデルは、画像全体ではなく、これらの特定の領域に焦点を合わせることで、最も関連性の高い領域を効率的に処理できます。リージョン提案を使用すると、徹底性と計算効率のバランスが取れます。

画像特徴抽出:詳細のキャプチャ

R-CNN モデルのオブジェクト検出プロセスの次のステップは、領域提案から特徴を抽出することです。各リージョンの提案は、CNN が想定する一貫したサイズ (224 x 224 ピクセルなど) にサイズ変更されます。サイズ変更は、CNN が各提案を効率的に処理するのに役立ちます。ワープする前に、各領域の提案のサイズがわずかに拡張され、領域の周囲に 16 ピクセルの追加コンテキストが含まれ、特徴抽出を改善するためにより多くの周辺情報が提供されます。

サイズが変更されると、これらのリージョンの提案は、通常、ImageNet などの大規模なデータセットで事前にトレーニングされた AlexNet などの CNN に入力されます。CNN は各領域を処理して、エッジ、テクスチャ、パターンなどの重要な詳細をキャプチャする高次元の特徴ベクトルを抽出します。これらの特徴ベクトルは、領域からの重要な情報を凝縮します。生の画像データを、モデルがさらなる分析に使用できる形式に変換します。次の段階でオブジェクトを正確に分類して位置を特定するには、視覚情報を意味のあるデータに変換する必要があります。

図3. AlexNet を使用して地域提案から特徴を抽出します。

オブジェクトの分類:検知されたオブジェクトの識別

3 番目のステップは、これらの領域内のオブジェクトを分類することです。これは、プロポーザル内で見つかった各オブジェクトのカテゴリまたはクラスを決定することを意味します。抽出された特徴ベクトルは、機械学習分類器に渡されます。

R-CNN の場合、この目的にはサポート ベクター マシン (SVM) が一般的に使用されます。各SVMは、特徴ベクトルを分析し、特定の領域にそのクラスのインスタンスが含まれているかどうかを判断することにより、特定のオブジェクトクラスを認識するようにトレーニングされます。基本的に、すべてのオブジェクトカテゴリに対して、その特定のオブジェクトの各リージョン提案をチェックする専用の分類子があります。

トレーニング中に、分類器には、正と負のサンプルを含むラベル付きデータが与えられます。

  • ポジティブサンプル:ターゲットオブジェクトを含む領域。
  • ネガティブ サンプル: オブジェクトのない領域。

分類器は、これらのサンプルを区別する方法を学習します。バウンディング ボックス回帰は、最初に提案されたバウンディング ボックスを実際のオブジェクトの境界に一致するように調整することで、検出されたオブジェクトの位置とサイズをさらに絞り込みます。R-CNN モデルでは、分類と境界ボックス回帰を組み合わせることで、オブジェクトを識別し、正確に位置を特定できます。

図4. バウンディングボックス回帰の例。

すべてをまとめる:NMSによる検出の精緻化

分類と境界ボックスの回帰ステップの後、モデルは多くの場合、同じオブジェクトに対して複数の重なり合う境界ボックスを生成します。Non-Maximum Suppression(NMS)は、これらの検出を精緻化するために適用され、最も正確なボックスが維持されます。このモデルでは、NMSを適用することで冗長で重なり合うボックスを排除し、最も信頼性の高い検出のみを保持します。 

NMS は、すべてのバウンディング ボックスの信頼度スコア (検出されたオブジェクトが実際に存在する可能性を示す) を評価し、スコアの高いボックスと大幅に重複するボックスを抑制することで機能します。 

図5. 非最大抑制の例。

NMSの手順の内訳は次のとおりです。

  • 分別: 境界ボックスは、信頼度スコアの降順で並べ替えられます。
  • 選定: スコアが最も高いボックスが選択され、そのボックスと大きく重なっているすべてのボックスが削除されます (Intersection over Union、IoU に基づく)。
  • 反復: このプロセスは、次にスコアの高いボックスに対して繰り返され、すべてのボックスが処理されるまで続行されます。

まとめると、R-CNN モデルは、領域提案を生成し、CNN を使用して特徴を抽出し、境界ボックス回帰を使用してオブジェクトを分類して位置を絞り込み、最も正確な検出のみを保持する非最大抑制 (NMS) を使用してオブジェクトを検出します。

R-CNN は物体検出のマイルストーン

R-CNN は、精度と性能を大幅に向上させる新しいアプローチを導入したため、物体検出の歴史において画期的なモデルです。R-CNN が登場する前は、物体検出モデルは速度と精度のバランスを取るのに苦労していました。R-CNNの領域提案を生成し、特徴抽出にCNNを使用する方法は、画像内のオブジェクトの正確な位置推定と識別を可能にします。 

R-CNNは、Fast R-CNN、Faster R-CNN、Mask R-CNNなどのモデルへの道を開き、効率と精度をさらに向上させました。深層学習と地域ベースの分析を組み合わせることで、R-CNNはこの分野に新たな基準を打ち立て、さまざまな実世界のアプリケーションの可能性を切り開きました。

R-CNNによる医用画像の変革

R-CNNの興味深い使用例は、 医用画像です。R-CNNモデルは、MRIやCTスキャンなどの医療スキャンで 、脳腫瘍などのさまざまな種類の腫瘍を検出および分類するために使用されています。医用画像でR-CNNモデルを使用すると、診断精度が向上し、 放射線科医が 悪性腫瘍を早期に特定するのに役立ちます。R-CNNは、小さな腫瘍や早期の腫瘍でも検出できるため、がんなどの疾患の治療や予後に大きな影響を与えることができます。

図6. RCNNを用いた脳腫瘍の検出

R-CNNモデルは、腫瘍検出に加えて、他の医用画像タスクにも適用できます。たとえば、骨折を特定したり、目のスキャンで網膜疾患を検出したり、肺炎やCOVID-19などの状態の肺画像を分析したりできます。医学的問題に関係なく、早期発見 は患者の転帰の改善につながる可能性があります。R-CNNの精度を異常の特定と位置特定に適用することで、 医療従事者 は医療診断の信頼性と速度を向上させることができます。物体検出により診断プロセスが合理化されるため、患者はタイムリーで正確な治療計画を立てることができます。

R-CNN の限界とその後継

R-CNN には印象的ですが、計算の複雑さが増し、推論時間が遅いなどの欠点があります。これらの欠点により、R-CNN モデルはリアルタイム アプリケーションには適していません。リージョンの提案と分類を個別のステップに分離すると、パフォーマンスの効率が低下する可能性があります。

何年にもわたって、これらの懸念に対処するさまざまな物体検出モデルが登場してきました。Fast R-CNN は、領域提案と CNN 特徴抽出を 1 つのステップに組み合わせ、プロセスを高速化します。Faster R-CNN は、提案の生成を効率化するために領域提案ネットワーク(RPN)を導入し、Mask R-CNN はより詳細な検出のためにピクセルレベルのセグメンテーションを追加します。

図7. R-CNN、高速R-CNN、高速R-CNN、マスクR-CNNの比較。

Faster R-CNN とほぼ同時期に、 YOLO (You Only Look Once)シリーズは、リアルタイムの物体検出を進化させ始めました。 YOLO モデルは、ネットワークを 1 回通過する境界ボックスとクラス確率を予測します。たとえば、 Ultralytics YOLOv8 多くのコンピュータービジョンタスクの高度な機能により、精度と速度が向上します。

要点

RCNNは、深層学習が物体検出をどのように変えることができるかを示し、コンピュータービジョンのゲームを変えました。その成功は、この分野で多くの新しいアイデアを生み出しました。Faster R-CNN や YOLO RCNNの欠陥を修正するために立ち上がった、その貢献は覚えておくべき重要な大きなマイルストーンです。

研究が進むにつれて、さらに優れた、より高速な物体検出モデルが登場するでしょう。これらの進歩は、機械が世界を理解する方法を改善するだけでなく、多くの産業の進歩にもつながります。物体検出の未来はエキサイティングです!

AIについてもっと探求したいですか?の一部になる Ultralytics コミュニティ! GitHubリポジトリ で、最新の人工知能イノベーションをご覧ください。 農業製造業など、さまざまな分野にまたがる AI ソリューションをご覧ください。私たちと一緒に学び、進歩しましょう!

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう