용어집

2단계 물체 감지기

복잡한 컴퓨터 비전 작업에서 정확한 물체 감지를 위한 정확도 중심 솔루션인 2단계 물체 감지기의 강력한 성능을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

2단계 객체 감지기는 특히 복잡한 장면에서 높은 정확도로 잘 알려진 객체 감지 아키텍처의 한 종류입니다. 이 감지기는 다른 감지기와 달리 객체 감지 작업을 두 가지 단계로 나누는데, 먼저 이미지에서 객체를 포함할 수 있는 잠재적 영역을 식별하고(영역 제안), 두 번째로 제안된 영역 내에서 객체를 분류하고 경계 상자를 사용하여 위치를 구체화합니다. 이러한 체계적인 접근 방식은 상세한 분석이 가능하지만 다른 방법에 비해 계산 속도가 느려지는 단점이 있습니다. 이러한 모델은 컴퓨터 비전(CV) 발전의 초석입니다.

2단계 감지기의 작동 방식

2단계 탐지기의 작동에는 일반적으로 특징 추출을 위해 심층 신경망(NN), 특히 컨볼루션 신경망(CNN)을 활용하는 순차적 파이프라인이 포함됩니다.

  1. 1단계: 지역 제안: 첫 번째 단계는 객체가 위치할 가능성이 있는 관리 가능한 후보 영역(관심 영역, 또는 RoI)을 생성하는 것을 목표로 합니다. R-CNN과 같은 초기 모델에서는 선택적 검색과 같은 외부 방법을 사용했지만, 이후 발전된 모델, 특히 Faster R-CNN 아키텍처에서는 지역 제안 네트워크(RPN)를 사용하여 이 단계를 신경망 자체에 통합했습니다. RPN은 백본 네트워크에서 생성된 특징 맵을 효율적으로 스캔하고 잠재적인 물체의 위치와 크기를 예측합니다.
  2. 2단계: 분류 및 구체화: 첫 번째 단계에서 제안된 영역은 두 번째 단계로 전달됩니다. 각 RoI에 대해 공유 피처 맵에서 피처가 추출됩니다(다양한 영역 크기를 처리하기 위해 RoIPooling 또는 RoIAlign과 같은 기술 사용). 이러한 특징은 감지 헤드로 전달되어 두 가지 작업을 수행합니다: RoI 내의 객체(예: '자동차', '사람', '배경')를 분류하고 객체에 더 정확하게 맞도록 경계 상자의 좌표를 세분화하는 것입니다.

주요 특징

2단계 감지기는 주로 다음과 같은 특징이 있습니다:

  • 높은 정확도: 제안 생성 및 분류/정제 작업을 분리하면 두 번째 단계에서는 더 작은 유망 영역에 리소스를 집중할 수 있어 로컬라이제이션 및 분류 정확도가 높아지는 경우가 많습니다. 작은 물체와 혼잡한 장면에서 잘 작동하는 경향이 있습니다. 성능은 종종 평균 평균 정밀도(mAP)교차점 간 합(IoU) 같은 지표를 사용하여 측정됩니다.
  • 추론 속도가 느립니다: 이미지를 두 단계로 처리하는 경우, 특히 수많은 영역 제안을 생성하고 개별적으로 처리하는 오버헤드가 발생하기 때문에 이러한 검출기는 1단계 객체 검출기보다 계산 집약적이며 일반적으로 속도가 느립니다. 따라서 엄격한 실시간 추론이 필요한 애플리케이션에서는 사용이 제한될 수 있습니다.

1단계 감지기와의 비교

주요 차이점은 운영 파이프라인에 있습니다. 다음과 같은 1단계 탐지기는Ultralytics YOLO 제품군(다음과 같은 모델 포함 YOLO11YOLOv8) 및 SSD(싱글 샷 멀티 박스 검출기)는 네트워크를 통과하는 단일 포워드 패스로 전체 이미지에서 바운딩 박스 및 클래스 확률을 직접 예측합니다. 이들은 객체 감지를 회귀 문제로 취급합니다. 이 통합 접근 방식은 상당한 속도 이점을 제공하므로 실시간 애플리케이션에 적합합니다. 그러나 역사적으로 2단계 감지기의 정확도, 특히 작은 물체에 대한 정확도와 일치하는 문제에 직면했지만, 최근의 발전으로 이 격차는 상당히 좁혀졌습니다. 자세한 내용은 다양한 물체 감지 모델 간의 비교를 살펴보세요.

주목할 만한 아키텍처

2단계 탐지기의 진화에는 몇 가지 영향력 있는 모델이 포함되어 있습니다:

  • R-CNN(CNN 기능이 있는 지역): 지역 제안과 CNN 기능을 결합한 선구적인 작업이지만 각 지역을 독립적으로 처리하기 때문에 속도가 느렸습니다.
  • 빠른 R-CNN: 공유 컨볼루션 특징 맵에서 RoIPooling을 사용하여 제안서 간에 계산을 공유하여 속도를 개선합니다.(빠른 R-CNN 백서)
  • 더 빨라진 R-CNN: RPN을 통해 지역 제안 단계를 네트워크에 통합하여 거의 엔드투엔드 트레이닝이 가능한 시스템을 구축함으로써 속도와 우아함을 더욱 향상시켰습니다.
  • 마스크 R-CNN: 감지된 각 객체에 대한 분할 마스크를 예측하는 브랜치를 추가하여 인스턴스 분할을 수행하도록 확장된 더 빠른 R-CNN.(마스크 R-CNN 논문)

실제 애플리케이션

2단계 감지기의 높은 정확도는 정밀도가 가장 중요한 시나리오에서 유용합니다:

  • 의료 이미지 분석: 의료 스캔(CT, MRI)에서 작은 종양, 병변 또는 용종과 같은 미묘한 이상을 감지하려면 진단을 돕기 위해 높은 정확도가 필요합니다. 정확한 위치 파악은 치료 계획에 매우 중요합니다. 의료 분야의 AI와 Radiology와 같은 저널의 연구에 대해 자세히 알아보세요 : 인공 지능. 관련 작업을 위해 뇌종양 데이터 세트와 같은 데이터 세트를 살펴볼 수 있습니다.
  • 자율 주행: 보행자, 자전거, 다른 차량, 교통 표지판, 특히 작거나 부분적으로 가려진 표지판을 정확하게 감지하고 위치를 파악하는 것은 자율 주행 차량의 안전 시스템에 매우 중요합니다. 웨이모와 같은 기업은 강력한 인식 시스템에 크게 의존합니다.
  • 세부적인 장면 이해: 물체 상호 작용을 세밀하게 이해하거나 정밀한 계산이 필요한 애플리케이션은 정확도를 높일 수 있습니다.
  • 제조 분야의 품질 관리: 작은 결함을 식별하거나 복잡한 어셈블리의 구성 요소 배치를 확인하려면 높은 정밀도가 필요한 경우가 많습니다. 제조 분야의 AI에 대해 자세히 알아보세요.

이러한 모델을 훈련하려면 일반적으로 COCO 데이터 집합과 같은 대규모 레이블이 지정된 데이터 집합과 신중한 조정이 필요합니다. Ultralytics 모델 훈련과 성능 메트릭 이해를 위한 리소스를 제공합니다. Ultralytics Ultralytics YOLO 같은 효율적인 1단계 모델에 중점을 두지만, 2단계 탐지기를 이해하면 더 광범위한 객체 탐지 분야에서 중요한 컨텍스트를 얻을 수 있습니다.

모두 보기