용어집

객체 감지 아키텍처

이미지 이해를 위한 AI 백본인 객체 감지 아키텍처의 강력한 성능을 알아보세요. 지금 바로 유형, 도구, 실제 적용 사례에 대해 알아보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

객체 감지 아키텍처는 인공 지능(AI) 시스템이 시각 정보를 해석하는 방식을 뒷받침하는 기본 구조입니다. 이러한 특수 신경망은 이미지 내에서 객체를 분류(존재하는 것을 식별)할 뿐만 아니라 일반적으로 감지된 각 인스턴스 주위에 경계 상자를 그려 객체의 정확한 위치를 찾도록 설계되었습니다. 기본적인 머신 러닝(ML) 개념에 익숙한 사람이라면 최신 컴퓨터 비전(CV)의 기능을 활용하기 위해 이러한 아키텍처를 이해하는 것이 중요합니다. 이러한 아키텍처는 기계가 인간과 유사한 방식으로 세상을 '보고' 이해할 수 있도록 하는 시스템의 근간을 형성합니다.

핵심 구성 요소

대부분의 객체 감지 아키텍처는 함께 작동하는 몇 가지 주요 구성 요소로 이루어져 있습니다. 백본 네트워크(주로 컨볼루션 신경망(CNN))는 입력 이미지에서 초기 특징 추출을 수행하여 가장자리 및 텍스처와 같은 낮은 수준의 패턴을 식별하고 점차적으로 더 복잡한 특징을 식별합니다. "목" 구성 요소는 종종 백본의 여러 단계의 특징을 취합하여 다양한 규모의 물체를 감지하는 데 적합한 풍부한 표현을 생성하며, 이 개념은 피처 피라미드 네트워크 문서와 같은 리소스에 자세히 설명되어 있습니다. 마지막으로, 감지 헤드는 이러한 특징을 사용하여 객체의 클래스 및 위치(경계 상자 좌표)를 예측합니다. 성능은 종종 IoU(Intersection over Union) 와 같은 메트릭을 사용하여 로컬라이제이션 정확도와 전반적인 탐지 품질에 대한 평균 정밀도(mAP) 를 평가하여 측정하며, 자세한 설명은 COCO 데이터 세트 평가 페이지와 같은 사이트에서 확인할 수 있습니다.

아키텍처 유형

객체 감지 아키텍처는 접근 방식에 따라 크게 분류됩니다:

  • 2단계 탐지기: 이 모델은 먼저 객체가 위치할 수 있는 관심 영역(RoI)을 제안한 다음 각 RoI에 대한 경계 상자를 분류하고 구체화합니다. 예를 들어 Faster R-CNN과 같은 R-CNN 제품군이 있습니다. 정확도가 높은 경우가 많지만 계산 집약적일 수 있습니다.
  • 원스테이지 검출기: 이 모델은 영역 제안 단계를 건너뛰고 입력 이미지에서 바운딩 박스와 클래스 확률을 한 번에 직접 예측합니다. 예를 들면 싱글 샷 멀티박스 검출기(SSD)Ultralytics YOLO 제품군이 있습니다. 일반적으로 더 빠른 실시간 추론 속도를 제공하므로 빠른 응답이 필요한 애플리케이션에 적합합니다. 다음과 같은 최신 1단계 감지기는 YOLO11 와 같은 최신 1단계 탐지기는 앵커가 없는 기술을 사용하는 경우가 많기 때문에 기존의 앵커 기반 방식에 비해 설계가 간소화됩니다. 다양한 YOLO 모델 간의 비교를 통해 그 진화를 살펴볼 수 있습니다.

유사 용어와 구별하기

객체 감지 아키텍처를 관련 컴퓨터 비전 작업과 구분하는 것이 중요합니다:

  • 이미지 분류: 전체 이미지에 하나의 레이블을 할당합니다(예: '고양이', '개'). 이미지에 무엇이 있는지는 전체적으로 식별하지만 특정 개체의 위치는 식별하지 않습니다. 예제는 Ultralytics 분류 작업 설명서를 참조하세요.
  • 시맨틱 세분화: 이미지의 각 픽셀을 미리 정의된 카테고리로 분류합니다(예: 자동차에 속하는 모든 픽셀은 '자동차'로 레이블 지정). 밀도 높은 예측을 제공하지만 동일한 객체 클래스의 다른 인스턴스를 구분하지는 않습니다.
  • 인스턴스 세분화: 각 픽셀을 분류하고 개별 객체 인스턴스를 구분(예: '자동차 1', '자동차 2' 라벨 지정)하여 시맨틱 분할보다 한 단계 더 나아갑니다. 객체 감지와 의미론적 세분화를 결합한 것입니다. 자세한 내용은 Ultralytics 세그멘테이션 작업 설명서를 참조하세요.

실제 애플리케이션

객체 감지 아키텍처는 다양한 분야에 걸쳐 수많은 AI 애플리케이션을 지원합니다:

도구 및 기술

이러한 아키텍처를 기반으로 모델을 개발하고 배포하려면 종종 전문화된 도구와 프레임워크가 필요합니다:

모두 보기