2단계 객체 감지기는 컴퓨터 비전(CV) 에서 객체 감지 아키텍처의 한 범주로, 감지 프로세스를 두 단계로 나누어 정확도를 우선시합니다. 이러한 감지기는 먼저 이미지 내에서 객체가 존재할 수 있는 관심 영역(RoI)을 식별한 다음, 두 번째 단계에서 제안된 영역 내의 객체를 분류하고 위치(경계 상자)를 구체화하도록 설계되었습니다. 이러한 체계적인 접근 방식을 통해 각 잠재적 물체를 보다 자세히 분석할 수 있으므로 특히 복잡한 시나리오나 작은 물체를 감지할 때 감지 정확도가 높아지는 경우가 많습니다.
2단계 감지기의 작동 방식
2단계 탐지기의 작동에는 딥 러닝 기술, 특히 컨볼루션 신경망(CNN)을 활용하는 순차적인 프로세스가 포함됩니다.
- 1단계: 지역 제안: 첫 번째 단계에서는 일반적으로 Faster R-CNN 모델에 의해 대중화된 개념인 지역 제안 네트워크(RPN)를 사용합니다. RPN은 이미지 특징( ResNet과 같은 백본 CNN에서 추출)을 스캔하여 객체를 포함할 가능성이 있는 후보 영역 세트를 제안합니다. 이러한 제안은 기본적으로 잠재적인 물체를 둘러싼 거친 경계 상자입니다.
- 2단계: 분류 및 구체화: 그런 다음 제안된 영역(RoI)은 두 번째 단계로 넘어갑니다. 각 RoI에 대해 특징이 추출되고(주로 RoIPool 또는 RoIAlign과 같은 기술을 사용), 신경망(NN)이 두 가지 작업을 수행합니다: RoI 내의 객체(예: '자동차', '사람', '배경')를 분류하고 객체에 더 정확하게 맞도록 경계 상자의 좌표를 세분화하는 것입니다. 대표적인 예로는 인스턴스 세분화를 수행하기 위해 이 접근 방식을 확장한 R-CNN 제품군(R-CNN이란 무엇인가요?, 빠른 R-CNN, 더 빠른 R-CNN)과 마스크 R-CNN이 있습니다.
장점과 단점
2단계 감지기는 뚜렷한 이점을 제공하지만 단점도 있습니다:
장점:
- 높은 정확도: 제안서 생성과 분류/세분화를 분리하면 보다 집중적인 처리가 가능하므로 일반적으로 정확도가 높아지며, 특히 평균 평균 정확도(mAP)와 같은 지표로 측정할 수 있습니다.
- 현지화 개선: 세분화 단계를 거치면 바운딩 박스 예측이 더욱 정확해지는 경우가 많습니다.
- 작은 물체에 효과적입니다: 두 번째 단계에 초점을 맞추기 때문에 이미지에서 작은 물체를 식별하는 데 1단계 디텍터보다 더 나은 성능을 발휘할 수 있습니다.
단점:
- 느린 속도: 순차적인 2단계 프로세스는 본질적으로 더 많은 계산 시간이 필요하므로 1단계 방식에 비해 추론 지연 시간이 짧습니다. 따라서 실시간 추론이 필요한 애플리케이션에는 적합하지 않습니다.
- 복잡성: 아키텍처는 일반적으로 구현 및 교육하기가 더 복잡합니다.
- 더 높은 계산 비용: 일반적으로 학습과 추론 모두에 더 많은 컴퓨팅 리소스(예: GPU)가 필요합니다.
1단계 감지기와의 비교
가장 큰 차이점은 아키텍처와 접근 방식에 있습니다. 다음과 같은 1단계 객체 감지기는Ultralytics YOLO 시리즈(예 YOLOv8, YOLO11) 및 SSD는 네트워크를 통과하는 한 번의 패스에서 오브젝트 로컬라이제이션과 분류를 동시에 수행합니다. 따라서 속도가 훨씬 빨라집니다. 1단계와 2단계 감지기를 선택할 때는 속도(1단계) 또는 최대 정확도(2단계) 중 우선순위를 정해야 하는 절충안이 수반되는 경우가 많습니다. 1단계 탐지기가 정확도 격차를 크게 줄인 반면, 2단계 탐지기는 최고의 정밀도가 요구되는 시나리오에서 우위를 유지하는 경우가 많습니다.
실제 애플리케이션
2단계 감지기는 정확도가 높기 때문에 정밀도가 가장 중요한 애플리케이션에서 유용합니다:
- 의료 이미지 분석: 진단을 위해 높은 정밀도가 중요한 CT 또는 MRI 스캔에서 작은 종양이나 병변과 같은 미묘한 이상 징후를 감지합니다. 의료 분야의 AI에서는 이러한 작업에 Mask R-CNN과 같은 모델을 적용하고 있습니다(예: 의료 영상에서의 Mask R-CNN 참조).
- 자율 주행: 자율주행 차량의 세부 인식 시스템이 복잡하거나 까다로운 환경에서도 보행자, 차량, 교통 표지판과 같은 다양한 물체를 정확하게 감지하고 분류할 수 있도록 지원하여 차량 내 AI의 전반적인 안전에 기여합니다.
- 고해상도 위성 이미지: 위성 이미지 분석에서 특정 유형의 차량이나 인프라 변화를 추적하는 등 정밀한 물체 식별을 위해 상세한 위성 이미지를 분석합니다.
- 제조 분야의 품질 관리: 제조 분야의 AI는 높은 위치 정확도가 요구되는 사소한 결함이 있는 제품을 검사합니다. Meta AI의 Detectron2와 같은 프레임워크는 널리 사용되는 2단계 모델을 구현합니다.