용어집

객체 감지 아키텍처

이미지 이해를 위한 AI 백본인 객체 감지 아키텍처의 강력한 성능을 알아보세요. 지금 바로 유형, 도구, 실제 적용 사례에 대해 알아보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

객체 감지 아키텍처는 인공 지능(AI) 시스템이 시각 정보를 해석하는 방식을 뒷받침하는 기본 구조입니다. 이러한 특수 신경망은 이미지 내에서 객체를 분류(존재하는 것을 식별)할 뿐만 아니라 일반적으로 감지된 각 인스턴스 주위에 경계 상자를 그려 객체의 정확한 위치를 찾도록 설계되었습니다. 기본적인 머신 러닝 개념에 익숙한 사람이라면 이러한 아키텍처를 이해하는 것이 최신 컴퓨터 비전의 기능을 활용하는 데 매우 중요합니다.

핵심 구성 요소

대부분의 객체 감지 아키텍처는 함께 작동하는 몇 가지 주요 구성 요소로 이루어져 있습니다. 백본 네트워크(주로 컨볼루션 신경망(CNN))는 입력 이미지에서 초기 특징 추출을 수행하여 가장자리 및 텍스처와 같은 낮은 수준의 패턴을 식별하고 점차적으로 더 복잡한 특징을 식별합니다. '목' 구성 요소는 종종 백본의 여러 단계의 특징을 통합하여 다양한 규모의 물체를 감지하는 데 적합한 더 풍부한 표현을 생성합니다. 마지막으로 감지 헤드는 이러한 특징을 사용하여 객체의 클래스 및 위치(경계 상자 좌표)를 예측합니다. 로컬라이제이션 정확도를 평가하기 위해 IoU(Intersection over Union) 와 같은 메트릭을 사용하여 성능을 측정하는 경우가 많습니다.

아키텍처 유형

객체 감지 아키텍처는 접근 방식에 따라 크게 분류됩니다:

  • 2단계 디텍터: R-CNN과 그 후속 제품인 Faster R-CNN과 같은 이러한 아키텍처는 먼저 이미지 내에서 잠재적인 관심 영역(영역 제안)을 식별한 다음, 이 영역 내의 객체에 대한 경계 상자를 분류하고 구체화합니다. 정확도가 높은 것으로 알려져 있지만 속도가 느릴 수 있습니다.
  • 원스테이지 디텍터: SSD(싱글 샷 멀티박스 검출기) 및 Ultralytics YOLO (You Only Look Once)와 같은 아키텍처는 네트워크를 통과하는 단 한 번의 포워드 패스에서 오브젝트 로컬라이제이션과 분류를 동시에 수행합니다. 따라서 훨씬 빠르고 실시간 추론에 적합합니다. 최신 YOLO 모델은 다음과 같습니다. YOLO11 와 같은 최신 YOLO 모델은 종종 앵커가 없는 기법을 사용하여 설계를 단순화하고 이전의 앵커 기반 방법에 비해 잠재적으로 일반화를 개선합니다.

유사 용어와 구별하기

객체 감지 아키텍처를 관련 컴퓨터 비전 작업과 구분하는 것이 중요합니다:

  • 이미지 분류: 이미지의 주요 피사체(예: "고양이")는 식별하지만 그 위치를 찾지는 못합니다. 객체 감지는 어떤 객체가 있고 어디에 있는지 알려줍니다.
  • 시맨틱 세분화: 이미지의 모든 픽셀을 미리 정의된 범주(예: 도로, 자동차, 하늘)로 분류하여 개별 개체 인스턴스를 구분하지 않고도 픽셀 수준에서 밀도 있는 이해를 제공합니다.
  • 인스턴스 세분화: 개별 객체 인스턴스를 식별하고 각 인스턴스에 대해 픽셀 수준 마스크를 제공함으로써 객체 감지 및 시맨틱 세그먼트보다 한 단계 더 발전한 기능입니다.

실제 애플리케이션

객체 감지 아키텍처는 다양한 분야에 걸쳐 수많은 AI 애플리케이션을 지원합니다:

  1. 자율주행 차량: 자율 주행 자동차가 다른 차량, 보행자, 자전거 운전자, 교통 신호를 감지하여 주변 환경을 인식하고 안전하게 주행할 수 있도록 하는 데 중요한 역할을합니다(자율 주행 자동차의 AI 블로그 참조).
  2. 의료 이미지 분석: X선, CT 스캔, MRI에서 종양, 병변, 골절과 같은 이상 징후를 자동으로 감지하고 위치를 파악하여 영상의학과 전문의를 지원함으로써 잠재적으로 조기 진단으로 이어질 수있습니다(의료 분야의 AI 살펴보기).
  3. 보안 및 감시: 침입을 감지하거나 특정 개인을 식별(얼굴 인식)하거나 비디오 피드에서 객체를 추적하여 모니터링을 자동화합니다(보안 경보 시스템 가이드 참조).
  4. 리테일 분석: 진열대 재고 모니터링(재고 관리를 위한 AI), 고객 유동인구 분석, 결제 시스템 개선.

도구 및 기술

이러한 아키텍처를 기반으로 모델을 개발하고 배포하려면 종종 전문화된 도구와 프레임워크가 필요합니다:

  • 실시간 애플리케이션에 널리 사용되는 인기 있는 모델 제품군이자 속도와 정확성의 균형을 맞추는 것으로 알려진 프레임워크인 Ultralytics YOLO. YOLO11 YOLOv10과 같은 다양한 YOLO 버전을 비교할 수 있습니다.
  • Ultralytics HUB: 광범위한 코딩 없이 YOLO 모델을 교육, 관리 및 배포하는 프로세스를 간소화하는 플랫폼입니다.
  • 딥 러닝 프레임워크: 다음과 같은 라이브러리 PyTorchTensorFlow 와 같은 라이브러리는 이러한 복잡한 신경망을 생성하고 훈련하기 위한 구성 요소를 제공합니다.
  • OpenCV: 전처리 및 후처리 작업을 위해 탐지 모델과 함께 자주 사용되는 광범위한 컴퓨터 비전 기능을 제공하는 필수 오픈 소스 라이브러리입니다.
모두 보기