受容野がニューラルネットワークの認識範囲をどのように定義するかを探求します。Ultralytics 空間的文脈を最適化し、あらゆるサイズのdetect 効果的にdetect 仕組みを学びます。
コンピュータビジョン(CV)および深層学習の領域において、受容野とはニューラルネットワーク(NN)内の特定のニューロンが「認識」または分析する入力画像の特定領域を指す。 概念的には、人間の眼やカメラレンズの視野と同様に機能する。これは、モデルが各層で認識できる空間的文脈の範囲を決定する。データが畳み込みニューラルネットワーク(CNN)を通過するにつれて、受容野は通常拡大し、システムがエッジや角といった微細な局所的詳細の識別から、物体全体やシーンといった複雑な全体構造の理解へと移行することを可能にする。
受容野の大きさと深さはネットワークのアーキテクチャによって決定される。 初期層では、ニューロンは通常小さな受容野を持ち、微細なテクスチャを捉えるためにピクセルの小さなクラスターに焦点を当てる。ネットワークが深くなるにつれ、プーリング層 やストライド畳み込みなどの操作によって特徴マップが効果的にダウンサンプリングされる。このプロセスにより、後続のニューロンは元の入力のより広範な領域からの情報を統合できるようになる。
Ultralytics 現代のアーキテクチャは、これらの受容野を緻密にバランスさせるよう設計されている。受容野が狭すぎると、モデルは物体の形状全体を認識できず、大きな物体を認識できない可能性がある。 逆に、解像度を維持せずに受容野が過度に広すぎると、モデルは小さな物体を見逃す可能性がある。この問題を解決するため、エンジニアはしばしば拡張畳み込み(アトラス畳み込みとも呼ばれる)を用いて、空間解像度を低下させることなく受容野を拡張する。この技術は、セマンティックセグメンテーションのような高精度タスクに不可欠である。
受容野の最適化は、様々なAIソリューションの成功にとって極めて重要である。
ネットワーク設計を完全に理解するには、受容野を類似の用語と区別することが有用である:
最新のYOLO26のような最先端モデルは、あらゆるサイズの物体に対して効果的な受容野を維持するために特徴ピラミッドネットワーク(FPN)を採用しています。以下の例では、これらの内部アーキテクチャ最適化を自動的に活用し、モデルを読み込んで物体検出を実行する方法を示します。最適化されたアーキテクチャで独自のモデルをトレーニングしたいユーザーは、Ultralytics を利用して、シームレスなデータセット管理とクラウドトレーニングを実現できます。
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()