녹색 확인
링크가 클립보드에 복사됨

R-CNN이란 무엇인가요? 간단한 개요

RCNN과 객체 감지에 미치는 영향에 대해 알아보세요. 주요 구성 요소, 애플리케이션, 고속 RCNN 및 YOLO 과 같은 기술을 발전시키는 데 있어서의 역할에 대해 설명합니다.

객체 감지는 자율 주행, 감시, 의료 영상과 같은 애플리케이션에서 이미지나 동영상에서 객체를 인식하고 위치를 찾을 수 있는 컴퓨터 비전 작업입니다. Viola-Jones 검출기나 서포트 벡터 머신(SVM)을 사용한 방향 기울기 히스토그램(HOG)과 같은 이전의 물체 감지 방법은 수작업으로 만든 특징과 슬라이딩 윈도우에 의존했습니다. 이러한 방법은 다양한 모양과 크기의 물체가 여러 개 있는 복잡한 장면에서 물체를 정확하게 감지하는 데 어려움을 겪는 경우가 많았습니다.

지역 기반 컨볼루션 신경망(R-CNN)은 물체 감지를 처리하는 방식을 변화시켰습니다. 이는 컴퓨터 비전 역사에서 중요한 이정표입니다. 다음과 같은 모델이 어떻게 등장했는지 이해하려면 YOLOv8 과 같은 모델이 어떻게 등장했는지 이해하려면 먼저 R-CNN과 같은 모델을 이해해야 합니다. 

로스 거쉭과 그의 팀이 만든 R-CNN 모델 아키텍처는 영역 제안을 생성하고, 사전 학습된 컨볼루션 신경망(CNN)으로 특징을 추출하고, 개체를 분류하고, 경계 상자를 구체화합니다. 어렵게 느껴질 수도 있지만, 이 글이 끝나면 R-CNN의 작동 방식과 그 영향력을 명확하게 이해할 수 있을 것입니다. 한번 살펴봅시다!

R-CNN은 어떻게 작동하나요?

R-CNN 모델의 객체 감지 프로세스에는 영역 제안 생성, 특징 추출, 객체 분류의 세 가지 주요 단계가 있으며, 경계 상자를 구체화하면서 객체를 분류합니다. 각 단계를 살펴보겠습니다.

그림 1. R-CNN 작동 방식.

지역 제안: RCNN의 중추

첫 번째 단계에서는 R-CNN 모델이 이미지를 스캔하여 수많은 영역 제안을 생성합니다. 영역 제안은 물체를 포함할 수 있는 잠재적 영역입니다. 선택적 검색과 같은 방법은 색상, 질감, 모양 등 이미지의 다양한 측면을 살펴보고 이미지를 여러 부분으로 세분화하는 데 사용됩니다. 선택적 검색은 이미지를 작은 부분으로 나눈 다음 유사한 부분을 병합하여 더 큰 관심 영역을 형성하는 것으로 시작합니다. 이 과정은 약 2,000개의 영역 제안이 생성될 때까지 계속됩니다.

그림 2. 선택적 검색의 작동 방식.

이러한 영역 제안은 물체가 존재할 수 있는 모든 가능한 지점을 식별하는 데 도움이 됩니다. 다음 단계에서 모델은 전체 이미지가 아닌 이러한 특정 영역에 집중하여 가장 관련성이 높은 영역을 효율적으로 처리할 수 있습니다. 영역 제안을 사용하면 철저함과 계산 효율성의 균형을 맞출 수 있습니다.

이미지 특징 추출: 디테일 캡처

R-CNN 모델의 객체 감지 프로세스의 다음 단계는 영역 제안에서 특징을 추출하는 것입니다. 각 영역 제안은 CNN이 예상하는 일정한 크기(예: 224x224픽셀)로 크기가 조정됩니다. 크기 조정은 CNN이 각 제안을 효율적으로 처리하는 데 도움이 됩니다. 워핑하기 전에 각 영역 제안의 크기를 약간 확장하여 영역 주변에 16픽셀의 추가 컨텍스트를 포함함으로써 더 나은 특징 추출을 위해 더 많은 주변 정보를 제공합니다.

크기가 조정되면 이러한 영역 제안은 일반적으로 이미지넷과 같은 대규모 데이터 세트에 대해 사전 학습된 AlexNet과 같은 CNN에 입력됩니다. CNN은 각 영역을 처리하여 가장자리, 텍스처, 패턴과 같은 중요한 세부 사항을 포착하는 고차원 특징 벡터를 추출합니다. 이러한 특징 벡터는 영역의 필수 정보를 압축합니다. 원시 이미지 데이터를 모델이 추가 분석에 사용할 수 있는 형식으로 변환합니다. 다음 단계에서 물체를 정확하게 분류하고 위치를 파악하는 것은 시각적 정보를 의미 있는 데이터로 변환하는 이 중요한 작업에 달려 있습니다.

그림 3. AlexNet을 사용하여 지역 제안서에서 특징 추출하기.

개체 분류: 감지된 객체 식별

세 번째 단계는 이러한 영역 내의 객체를 분류하는 것입니다. 즉, 제안서 내에서 발견된 각 객체의 카테고리 또는 클래스를 결정하는 것입니다. 그런 다음 추출된 특징 벡터는 머신 러닝 분류기를 통과합니다.

R-CNN의 경우 일반적으로 서포트 벡터 머신(SVM)이 이러한 목적으로 사용됩니다. 각 SVM은 특징 벡터를 분석하고 특정 영역에 해당 클래스의 인스턴스가 포함되어 있는지 여부를 결정하여 특정 객체 클래스를 인식하도록 훈련됩니다. 기본적으로 모든 객체 카테고리에는 해당 특정 객체에 대한 각 영역 제안을 확인하는 전용 분류기가 있습니다.

학습하는 동안 분류기에는 양성 및 음성 샘플로 레이블이 지정된 데이터가 제공됩니다:

  • 양성 샘플: 대상 개체가 포함된 영역입니다.
  • 음성 샘플: 객체가 없는 영역.

분류기는 이러한 샘플을 구별하는 방법을 학습합니다. 경계 상자 회귀는 처음에 제안된 경계 상자를 실제 객체 경계와 더 잘 일치하도록 조정하여 감지된 객체의 위치와 크기를 더욱 세분화합니다. R-CNN 모델은 분류와 경계 상자 회귀를 결합하여 객체를 식별하고 정확한 위치를 찾을 수 있습니다.

그림 4. 바운딩 박스 회귀의 예.

모든 것을 종합하기: NMS로 탐지 세분화

분류 및 경계 상자 회귀 단계가 끝나면 모델은 동일한 객체에 대해 겹치는 경계 상자를 여러 개 생성하는 경우가 많습니다. 이러한 검출을 세분화하여 가장 정확한 박스를 유지하기 위해 비최대 억제(NMS)가 적용됩니다. 이 모델은 NMS를 적용하여 중복 및 겹치는 박스를 제거하고 가장 확실한 탐지만 유지합니다. 

NMS는 모든 경계 상자의 신뢰도 점수(감지된 객체가 실제로 존재할 가능성을 나타내는 점수)를 평가하고 점수가 높은 상자와 상당히 겹치는 상자를 억제하는 방식으로 작동합니다. 

그림 5. 비최대 억제 예시.

다음은 NMS의 단계별 분석입니다:

  • 정렬: 경계 상자는 신뢰도 점수에 따라 내림차순으로 정렬됩니다.
  • 선택: 점수가 가장 높은 상자가 선택되고 이 상자와 크게 겹치는 모든 상자(교집합, IoU 기준)가 제거됩니다.
  • 반복: 이 프로세스는 다음으로 점수가 높은 상자에 대해 반복되며 모든 상자가 처리될 때까지 계속됩니다.

종합하면, R-CNN 모델은 영역 제안을 생성하고, CNN으로 특징을 추출하고, 경계 상자 회귀를 통해 객체를 분류하고 위치를 구체화하며, 가장 정확한 탐지만을 유지하는 비최대 억제(NMS)를 사용하여 객체를 탐지합니다.

물체 감지의 이정표, R-CNN

R-CNN은 정확도와 성능을 크게 향상시킨 새로운 접근 방식을 도입했기 때문에 객체 감지 역사에서 획기적인 모델이라고 할 수 있습니다. R-CNN 이전에는 객체 감지 모델이 속도와 정확도 사이에서 균형을 잡는 데 어려움을 겪었습니다. 영역 제안을 생성하고 특징 추출에 CNN을 사용하는 R-CNN의 방식은 이미지 내에서 물체를 정밀하게 찾아내고 식별할 수 있게 해줍니다. 

R-CNN은 효율성과 정확성을 더욱 향상시킨 Fast R-CNN, Faster R-CNN, Mask R-CNN과 같은 모델의 토대를 마련했습니다. 딥 러닝과 지역 기반 분석을 결합한 R-CNN은 이 분야에서 새로운 표준을 세웠고 다양한 실제 애플리케이션의 가능성을 열었습니다.

R-CNN을 통한 의료 영상 혁신

R-CNN의 흥미로운 사용 사례는 의료 영상 분야입니다. R-CNN 모델은 MRI 및 CT 스캔과 같은 의료 스캔에서 뇌종양과 같은 다양한 유형의 종양을 탐지하고 분류하는 데 사용되었습니다. 의료 영상에서 R-CNN 모델을 사용하면 진단 정확도가 향상되고 방사선 전문의가 악성 종양을 조기에 식별하는 데 도움이 됩니다. 작은 초기 단계의 종양도 발견할 수 있는 R-CNN의 능력은 암과 같은 질병의 치료와 예후에 큰 차이를 만들 수 있습니다.

그림 6. RCNN을 이용한 뇌종양 탐지.

R-CNN 모델은 종양 탐지 외에도 다른 의료 영상 작업에도 적용할 수 있습니다. 예를 들어, 골절을 식별하고, 안구 스캔에서 망막 질환을 감지하며, 폐렴이나 코로나19와 같은 질환에 대한 폐 이미지를 분석할 수 있습니다. 어떤 의학적 문제든 조기 발견은 더 나은 환자 치료 결과로 이어질 수 있습니다. 의료진은 이상 징후를 식별하고 위치를 파악하는 데 R-CNN의 정밀도를 적용함으로써 의료 진단의 신뢰성과 속도를 향상시킬 수 있습니다. 물체 감지를 통해 진단 프로세스를 간소화하면 환자는 적시에 정확한 치료 계획을 세울 수 있습니다.

R-CNN의 한계와 그 후계자

R-CNN은 인상적이지만 높은 계산 복잡성과 느린 추론 시간 등 몇 가지 단점이 있습니다. 이러한 단점 때문에 R-CNN 모델은 실시간 애플리케이션에 적합하지 않습니다. 영역 제안과 분류를 별개의 단계로 분리하면 효율성이 떨어질 수 있습니다.

지난 몇 년 동안 이러한 문제를 해결한 다양한 객체 감지 모델이 등장했습니다. Fast R-CNN은 영역 제안과 CNN 특징 추출을 단일 단계로 결합하여 프로세스 속도를 높입니다. Faster R-CNN은 영역 제안 네트워크(RPN)를 도입하여 제안 생성을 간소화하고, Mask R-CNN은 픽셀 수준 세분화를 추가하여 보다 상세한 탐지를 가능하게 합니다.

그림 7. R-CNN, 빠른 R-CNN, 더 빠른 R-CNN, 마스크 R-CNN 비교.

YOLO YOLO 모델은 네트워크를 한 번 통과할 때 바운딩 박스와 클래스 확률을 예측하여 실시간 객체 감지를 발전시키기 시작했습니다. 예를 들어 Ultralytics YOLOv8 는 많은 컴퓨터 비전 작업을 위한 고급 기능으로 향상된 정확도와 속도를 제공합니다.

주요 내용

RCNN은 딥러닝이 물체 감지를 어떻게 변화시킬 수 있는지 보여주며 컴퓨터 비전의 판도를 바꿨습니다. 이 기술의 성공은 이 분야에서 많은 새로운 아이디어에 영감을 주었습니다. RCNN의 결함을 보완하기 위해 Faster R-CNN과 YOLO 같은 최신 모델이 등장했지만, RCNN의 공헌은 기억해야 할 중요한 이정표입니다.

연구가 계속 진행됨에 따라 물체 감지 모델이 더욱 개선되고 빨라질 것입니다. 이러한 발전은 기계가 세상을 이해하는 방식을 개선할 뿐만 아니라 여러 산업 분야의 발전으로 이어질 것입니다. 물체 감지의 미래는 흥미진진해 보입니다!

AI에 대해 더 자세히 알아보고 싶으신가요? Ultralytics 커뮤니티에 가입하세요! GitHub 리포지토리에서 최신 인공지능 혁신을 살펴보세요. 농업, 제조업 등 다양한 분야에 적용되는 Facebook의 AI 솔루션도 살펴보세요. 저희와 함께 배우고 발전하세요!

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기