로봇 공학 및 감시와 같은 실시간 애플리케이션에 이상적인 1단계 물체 감지기( YOLO)의 속도와 효율성에 대해 알아보세요.
컴퓨터 비전(CV) 분야, 특히 객체 감지의 경우 속도와 효율성이 정확도만큼이나 중요한 경우가 많습니다. 1단계 객체 감지기는 이러한 우선순위를 염두에 두고 설계된 딥러닝 모델의 한 종류로, 이미지 또는 비디오 내에서 객체를 식별하고 위치를 파악하는 간소화된 접근 방식을 제공합니다. 2단계와 달리 1단계 감지기는 신경망의 단일 순방향 통과에서 객체 위치 파악(객체의 위치 결정)과 분류(객체의 종류 결정)를 수행합니다. 이러한 설계 덕분에 훨씬 더 빠르고 실시간 추론 애플리케이션에 매우 적합합니다.
1단계 객체 감지기는 관심 영역(객체가 포함될 가능성이 있는 영역)을 제안하기 위한 별도의 계산 집약적인 단계를 피하는 엔드투엔드 설계가 특징입니다. 대신 물체 감지를 회귀 문제로 처리합니다. 이 모델은 일반적으로 특징 추출을 위해 백본 네트워크(주로 컨볼루션 신경망 또는 CNN)를 사용하여 전체 입력 이미지를 한 번 처리합니다. 그런 다음 이러한 특징은 이미지 그리드 또는 특징 맵 위치에서 경계 상자 좌표, 클래스 확률 및 신뢰 점수를 동시에 예측하는 감지 헤드에 직접 공급됩니다. 이 단일 패스 아키텍처는 속도를 강조하기 때문에 빠른 처리가 필수적인 애플리케이션에 이상적입니다. 인기 있는 예로는 Ultralytics YOLO 모델 제품군( YOLO11), Google Research에서 개발한 SSD(싱글 샷 멀티박스 검출기 ) 등이 있습니다. 또한 최신의 많은 1단계 탐지기는 앵커가 없어 기존의 앵커 기반 방식에 비해 파이프라인을 더욱 간소화합니다.
1단계와 2단계 객체 감지기의 근본적인 차이점은 운영 파이프라인에 있습니다. 영향력 있는 R-CNN (지역 기반 CNN)과 그 후속 제품인 Faster R-CNN과 같은 2단계 감지기는 먼저 선택적 검색 또는 지역 제안 네트워크(RPN)와 같은 방법을 사용하여 수많은 지역 제안을 생성합니다. 두 번째 단계에서는 이러한 제안을 분류하고 경계 상자를 세분화합니다. 이 2단계 프로세스는 일반적으로 특히 작거나 겹치는 물체를 감지할 때 더 높은 정확도를 달성하지만 계산 시간이 크게 증가하고 추론 속도가 느려지는 단점이 있습니다.
반면, 1단계 디텍터는 이러한 단계를 통합하여 전체 이미지에서 한 번에 로컬라이제이션과 분류를 동시에 수행합니다. 이러한 통합 접근 방식은 상당한 속도 향상을 가져옵니다. 과거에는 이러한 속도 이점이 때때로 상충되는 측면이 있었으며, 특히 로컬라이제이션 정밀도와 관련하여 최첨단 2단계 방식에 비해 정확도가 약간 떨어질 가능성이 있었습니다. 그러나 아키텍처 설계, 손실 함수, 훈련 전략의 발전으로 YOLO11 같은 최신 1단계 탐지기는 이러한 성능 격차를 크게 좁혀 다양한 벤치마크에서 매력적인 비교를 제공합니다. 성능은 일반적으로 평균 평균 정밀도(mAP) 및 교집합 대비 교차(IoU) 등의 메트릭을 사용하여 평가합니다.
1단계 물체 감지기의 속도와 효율성은 신속한 의사 결정과 처리가 필요한 수많은 실제 시나리오에서 매우 유용합니다:
1단계 객체 탐지기를 개발 및 배포하려면 다양한 도구와 플랫폼을 사용해야 합니다. 다음과 같은 딥 러닝 프레임워크 PyTorch 와 TensorFlow 와 같은 딥 러닝 프레임워크가 핵심 라이브러리를 제공합니다. OpenCV와 같은 컴퓨터 비전 라이브러리는 필수 이미지 처리 기능을 제공합니다. Ultralytics 최첨단 Ultralytics YOLO 모델과 COCO 또는 자체 데이터와 같은 데이터 세트에서 사용자 지정 모델을 훈련하고, 실험을 관리하고, 모델을 효율적으로 배포하는 것을 간소화하는 Ultralytics HUB 플랫폼을 제공합니다. 효과적인 모델 학습을 위해서는 신중한 하이퍼파라미터 튜닝과 데이터 증강과 같은 전략을 통해 견고성과 일반화를 개선해야 하는 경우가 많습니다. 모델은 다음과 같은 형식으로 내보낼 수 있습니다. ONNX 와 같은 형식으로 모델을 내보내 에지 디바이스를 포함한 다양한 하드웨어 플랫폼에 배포할 수 있습니다.