수용 야역이 신경망이 인식하는 범위를 어떻게 정의하는지 살펴보세요. Ultralytics 공간적 맥락을 최적화하여 모든 크기의 detect 효과적으로 detect 방법을 알아보세요.
컴퓨터 비전(CV) 및 딥 러닝 분야에서 수용 영역(receptive field)은 신경망(NN) 내 특정 뉴런이 '인식'하거나 분석하는 입력 이미지의 특정 영역을 의미합니다. 개념적으로 이는 인간의 눈이나 카메라 렌즈의 시야와 유사하게 기능합니다. 수용 야역은 모델이 특정 계층에서 인지할 수 있는 공간적 맥락의 범위를 결정합니다. 데이터가 컨볼루션 신경망(CNN)을 통과함에 따라 수용 야역은 일반적으로 확장되어, 시스템이 가장자리나 모서리 같은 미세한 국소적 세부사항을 식별하는 단계에서 전체 객체나 장면 같은 복잡한 전체적 구조를 이해하는 단계로 전환할 수 있게 합니다.
수용 영역의 크기와 깊이는 네트워크 구조에 의해 결정됩니다. 초기 레이어에서 뉴런은 일반적으로 작은 수용 영역을 가지며, 미세한 질감을 포착하기 위해 작은 픽셀 클러스터에 집중합니다. 네트워크가 깊어질수록 풀링 레이어와 스트라이드 컨볼루션과 같은 연산은 특징 맵을 효과적으로 다운샘플링합니다. 이 과정은 후속 뉴런이 원본 입력의 훨씬 더 큰 부분에서 정보를 통합할 수 있게 합니다.
최첨단 Ultralytics 포함한 현대적 아키텍처는 이들 영역을 세심하게 균형 잡도록 설계됩니다. 수용 영역이 너무 좁으면 모델이 전체 형태를 인지하지 못해 대형 물체를 인식하지 못할 수 있습니다. 반대로 해상도를 유지하지 못한 채 수용 야영이 지나치게 넓어지면 모델이 작은 물체를 놓칠 수 있습니다. 이를 해결하기 위해 엔지니어들은 종종 확장 컨볼루션 (아트로스 컨볼루션으로도 알려짐)을 사용하여 공간 해상도를 저하시키지 않으면서 수용 야영을 확장합니다. 이는 의미적 분할과 같은 고정밀 작업에 필수적인 기술입니다.
수용 영역의 최적화는 다양한 인공지능 솔루션의 성공에 매우 중요합니다.
네트워크 설계를 완전히 이해하려면 수용 야와 유사한 용어들을 구분하는 것이 도움이 됩니다:
최신 YOLO26과 같은 모델은 모든 크기의 객체에 대해 효과적인 수용 야경을 유지하기 위해 피처 피라미드 네트워크(FPN)를 활용합니다. 다음 예시는 이러한 내부 아키텍처 최적화를 자동으로 활용하여 모델을 로드하고 객체 탐지를 수행하는 방법을 보여줍니다. 최적화된 아키텍처로 자체 모델을 훈련하려는 사용자는 원활한 데이터셋 관리 및 클라우드 훈련을 위해 Ultralytics 활용할 수 있습니다.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()