用語集

レセプティブ・フィールド

コンピュータビジョンのためのCNNにおける受容野の重要性を発見してください。物体検出、セグメンテーション、AIの最適化にどのような影響を与えるかを学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

受容野は畳み込みニューラルネットワーク(CNN)の基本的な概念であり、特にコンピュータ・ビジョン(CV)に関連する。これは入力データ(画像や特徴マップなど)のうち、後続層の特定のニューロンやユニットの活性化に影響を与える特定の領域を指す。神経科学に由来するこの概念は、感覚ニューロンから反応を引き出すことができる感覚空間の領域を記述するものであり、CNNの人工ニューロンが入力をどのように「見る」かに直接翻訳される。受容野を理解することは、様々なタスクに対して効果的なネットワーク・アーキテクチャを設計する上で極めて重要である。

畳み込みニューラルネットワークにおける重要性

CNNでは通常、層は積み重ねられる。各畳み込み層は、その入力に対してフィルター(カーネル)を適用する。この領域はカーネル・サイズに対応する。しかし、ネットワークが深くなるにつれて、1つのニューロンの活性化は、元の入力画像の徐々に大きな領域の影響を受けるようになる。これは、各ニューロンが前の層のニューロンの受容野からの情報を統合するためである。このように受容野のサイズを階層的に大きくすることで、CNNは異なるスケールの特徴を学習することができる。初期の層では単純なエッジやテクスチャーから始まり、より深い層では複雑な物体やパターンに至る。受容野サイズを適切に管理することは、小さな物体の認識であれ、シーン全体の分類であれ、ネットワークがタスクに関連するコンテキストを確実に捉えるための鍵となる。

受容野の大きさに影響を与える要因

いくつかのアーキテクチャの選択は、CNNのニューロンの有効な受容野のサイズに影響する:

  • カーネルの大きさ:より大きなカーネルは、単一層の受容野を直接的に増大させる。
  • ストライド:カーネルが入力を横切って移動するステップサイズ。ストライドを大きくすると、より深い層で受容野が早く拡大するが、空間解像度が低下することがある。
  • レイヤーのプーリング:max-poolingのような操作は、特徴マップをダウンサンプリングし、元の入力に対して後続のレイヤーの受容野を効果的に増加させる。プーリングの詳細はこちら
  • 拡張畳み込み(Atrous Convolutions):これはカーネル要素間にギャップを導入するもので、パラメータ数や計算コストを増やすことなく、カーネルがより広い領域をカバーできるようにする。この手法はDeepLabなどの研究で詳しく紹介されている
  • ネットワークの深さ:より多くの層を重ねることは、受容野のサイズを大きくする最も一般的な方法である。より深いネットワークは、最終層の受容野が本質的に大きくなる。

異なるタスクにおける受容野

最適な受容野のサイズは、特定のコンピュータ・ビジョン・タスクに大きく依存する:

  • 画像分類すべての視覚情報に基づいて大域的な判断を下すために、多くの場合、最終層に大きな受容野を必要とし、理想的には画像全体をカバーする。モデルはImageNetのようなデータセットで学習される。
  • 物体の検出異なるスケールの物体を検出するためには、様々なサイズの受容野が必要である。Ultralytics YOLO ようなアーキテクチャは、多くの場合、特徴ピラミッドネットワーク(FPN)のような技術を採用して、多様な受容野を持つ特徴マップを生成する。小さな物体を検出するにはより小さな受容野が必要ですが、大きな物体にはより大きな受容野が必要です。さまざまなYOLO モデル間の比較を調べて、アーキテクチャがどのようにこの問題に対処しているかを見てみましょう。
  • セマンティックセグメンテーション高密度のピクセルレベルの予測が必要。コンテキストのためには大きな受容野が必要だが、空間分解能を維持することも重要である。解像度を落とさずに受容野を広げるために、拡張畳み込みがよく使われる。亀裂のセグメンテーションのようなタスクをチェックする。
  • インスタンスのセグメンテーション物体検出とセマンティック・セグメンテーションを組み合わせることで、検出のための多様な受容野と、個々のインスタンスをマスクするためのきめ細かな空間情報の両方を必要とする。Ultralytics YOLO11 11はインスタンスセグメンテーションをサポートしています。

実世界での応用例

  1. 自律走行車 Waymo社が開発したような自動運転車の物体検知システムは、歩行者、他の車両、信号機、車線標識など、さまざまな大きさや距離のものを識別する必要がある。注意深く設計された受容野を持つCNNは、以下のようなモデルを使用する可能性がある。 YOLOv8または RT-DETRのようなモデルを使用することで、システムは近くの小さな障害物(より小さな受容野を必要とする)と遠くの大きな車両や道路標識(より大きな受容野を必要とする)の両方を同時に認識することができる。車載ソリューションにおけるAIは、しばしばこの能力に依存している
  2. 医療画像解析腫瘍や病変のような異常を検出するために医療スキャン(CT、MRIなど)を解析する場合(腫瘍検出の例を参照)、受容野の大きさは非常に重要である。小さすぎる受容野は、より大きな構造や文脈情報を見逃す可能性があり、大きすぎる受容野は、重要な局所的詳細を平均化してしまう可能性がある。放射線学AIで使用されるモデルは、小さな病変の微妙なテクスチャーと、より広い解剖学的コンテキストの両方を捉えるために、受容野サイズのバランスを取る必要がある。脳腫瘍データセットのようなデータセットでの効果的なモデルトレーニングは、このバランスを考慮する。

関連概念とツール

受容野を理解することは、カーネルサイズストライド、パディング、全体的なネットワークアーキテクチャーなどの概念と密接に結びついている。カーネルが局所的な接続パターンを定義するのに対し、受容野は入力に対する累積効果を記述する。以下のような様々なディープラーニングフレームワークがある。 PyTorchTensorFlowはこれらの概念を実装している。CNNの受容野を可視化し、アーキテクチャ設計やデバッグを支援するツールが存在する。以下のようなモデルを扱う場合 Ultralytics YOLO11のようなモデルをUltralytics HUBのようなプラットフォームで扱う場合、受容野を意識することで、特定の検出やセグメンテーションのタスクに適切なモデルのサイズや構成を選択するのに役立つ。

すべて読む