객체 감지 아키텍처
이미지 이해를 위한 AI 백본인 객체 감지 아키텍처의 강력한 성능을 알아보세요. 지금 바로 유형, 도구, 실제 적용 사례에 대해 알아보세요!
객체 감지 아키텍처는 객체 감지를 수행하는 딥 러닝 모델의 기본 청사진입니다. 이 컴퓨터 비전(CV) 작업에는 일반적으로 이미지 또는 비디오 내에서 객체 주위에 경계 상자를 그리고 클래스 레이블을 할당하여 객체의 존재 여부와 위치를 식별하는 작업이 포함됩니다. 아키텍처는 시각 정보를 처리하고 예측을 수행하는 방법을 포함하여 모델의 구조를 정의합니다. 아키텍처 선택은 모델의 속도, 정확도 및 계산 요구 사항에 직접적인 영향을 미치므로 매우 중요합니다.
객체 감지 아키텍처의 작동 방식
대부분의 최신 객체 감지 아키텍처는 순차적으로 작동하는 세 가지 주요 구성 요소로 이루어져 있습니다:
- 백본: 컨볼루션 신경망(CNN)으로, ImageNet과 같은 대규모 이미지 분류 데이터 세트에 대해 사전 학습된 경우가 많습니다. 백본의 주요 역할은 입력 이미지를 계층적 시각 정보를 캡처하는 일련의 특징 맵으로 변환하는 특징 추출기 역할을 하는 것입니다. 널리 사용되는 백본 네트워크에는 많은 YOLO 모델에 사용되는 ResNet과 CSPDarknet이 있습니다. IBM의 자세한 개요와 같은 출처에서 CNN의 기본 사항에 대해 자세히 알아볼 수 있습니다.
- 목: 이 선택적 구성 요소는 백본과 헤드 사이에 위치합니다. 백본에서 생성된 특징 맵을 집계하고 세분화하는 역할을 하며, 다양한 크기의 객체 감지를 개선하기 위해 서로 다른 스케일의 특징을 결합하는 경우가 많습니다. 피처 피라미드 네트워크(FPN)를 예로 들 수 있습니다.
- 감지 헤드: 헤드는 예측을 담당하는 최종 구성 요소입니다. 넥(또는 백본에서 직접)에서 처리된 특징 맵을 가져와 감지된 각 객체에 대한 클래스 확률과 바운딩 박스 좌표를 출력합니다.
아키텍처 유형
객체 감지 아키텍처는 예측 접근 방식에 따라 크게 분류되며, 속도와 정확도 간에 상충되는 부분이 있습니다. 자세한 모델 비교를 통해 이러한 장단점을 확인할 수 있습니다.
- 2단계 객체 검출기: R-CNN 제품군과 같은 이러한 모델은 먼저 일련의 후보 객체 영역(영역 제안)을 식별한 다음 각 영역을 분류합니다. 이 2단계 프로세스는 높은 정확도를 달성할 수 있지만 속도가 느린 경우가 많습니다.
- 1단계 객체 감지기: Ultralytics YOLO (You Only Look Once) 제품군과 같은 아키텍처는 객체 감지를 단일 회귀 문제로 처리합니다. 전체 이미지에서 직접 바운딩 박스와 클래스 확률을 한 번에 예측하여 실시간 추론이 가능합니다.
- 앵커 프리 디텍터: 1단계 디텍터에서 가장 최근에 진화한 Ultralytics YOLO11과 같은 앵커 프리 아키텍처는 사전 정의된 앵커 박스가 필요하지 않습니다. 따라서 트레이닝 프로세스가 간소화되고 더 빠르고 효율적인 모델을 만들 수 있습니다.
실제 애플리케이션
객체 감지 아키텍처는 다양한 분야에 걸쳐 수많은 AI 애플리케이션을 지원합니다:
도구 및 기술
이러한 아키텍처를 기반으로 모델을 개발하고 배포하려면 종종 전문화된 도구와 프레임워크가 필요합니다: