물체 감지의 진화를 되돌아보는 시간을 가져보세요. 지난 몇 년 동안 YOLO (You Only Look Once) 모델이 어떻게 발전해 왔는지 집중적으로 살펴볼 것입니다.
컴퓨터 비전은 인간이 현실 세계를 인식하는 방식과 유사하게 기계가 이미지와 동영상을 보고 이해하도록 가르치는 데 중점을 둔 인공 지능(AI)의 하위 분야입니다. 물체를 인식하거나 행동을 식별하는 것은 인간에게는 본능이지만, 이러한 작업은 기계에 있어서는 구체적이고 전문적인 컴퓨터 비전 기술이 필요합니다. 예를 들어, 컴퓨터 비전의 핵심 작업 중 하나는 이미지나 동영상에서 물체를 식별하고 위치를 파악하는 물체 감지입니다.
1960년대부터 연구자들은 컴퓨터가 사물을 감지하는 방법을 개선하기 위해 노력해 왔습니다. 템플릿 매칭과 같은 초기 방식은 미리 정의된 템플릿을 이미지 전체에 밀어 일치하는 항목을 찾는 방식이었습니다. 이러한 접근 방식은 혁신적이긴 했지만 물체의 크기, 방향, 조명의 변화로 인해 어려움을 겪었습니다. 오늘날에는 다음과 같은 고급 모델이 있습니다. Ultralytics YOLO11 과 같은 고급 모델을 사용하여 부분적으로 가려진 작은 물체도 놀라운 정확도로 감지할 수 있습니다.
컴퓨터 비전이 계속 발전함에 따라 이러한 기술이 어떻게 발전해왔는지 되돌아보는 것이 중요합니다. 이 글에서는 물체 인식의 진화를 살펴보고 YOLO (You Only Look Once) 모델의 변천사를 조명해 보겠습니다. 시작해 보겠습니다!
물체 감지에 대해 자세히 알아보기 전에 컴퓨터 비전이 어떻게 시작되었는지 살펴볼까요? 컴퓨터 비전의 기원은 과학자들이 뇌가 시각 정보를 처리하는 방식을 탐구하기 시작한 1950년대 말과 1960년대 초로 거슬러 올라갑니다. 데이비드 휴벨과 토르스텐 위젤은 고양이를 대상으로 한 실험에서 뇌가 가장자리와 선과 같은 단순한 패턴에 반응한다는 사실을 발견했습니다. 이는 시각 시스템이 더 복잡한 패턴으로 넘어가기 전에 가장자리와 같은 이미지의 기본 특징을 감지하고 인식한다는 개념인 특징 추출의 기초를 형성했습니다.
비슷한 시기에 물리적 이미지를 디지털 형식으로 변환할 수 있는 새로운 기술이 등장하면서 기계가 시각 정보를 처리하는 방법에 대한 관심이 촉발되었습니다. 1966년 매사추세츠 공과대학교(MIT)의 서머 비전 프로젝트는 이를 더욱 진전시켰습니다. 이 프로젝트는 완전히 성공하지는 못했지만, 이미지에서 전경과 배경을 구분할 수 있는 시스템을 만드는 것을 목표로 했습니다. 비전 AI 커뮤니티의 많은 사람들에게 이 프로젝트는 컴퓨터 비전이 과학 분야로서 공식적으로 시작되었음을 의미합니다.
1990년대 말과 2000년대 초에 컴퓨터 비전이 발전하면서 객체 감지 방법은 템플릿 매칭과 같은 기본 기술에서 보다 고급화된 접근 방식으로 바뀌었습니다. 얼굴 감지와 같은 작업에 널리 사용된 하르 캐스케이드는 널리 알려진 방법 중 하나였습니다. 이 방법은 슬라이딩 창으로 이미지를 스캔하고 이미지의 각 섹션에서 가장자리나 질감과 같은 특정 특징을 확인한 다음 이러한 특징을 결합하여 얼굴과 같은 물체를 감지하는 방식으로 작동했습니다. 하르 캐스케이드는 이전 방법보다 훨씬 빨랐습니다.
이와 함께 방향성 그라디언트 히스토그램(HOG)과 서포트 벡터 머신(SVM)과 같은 방법도 소개되었습니다. HOG는 슬라이딩 윈도우 기법을 사용하여 이미지의 작은 부분에서 빛과 그림자가 어떻게 변화하는지 분석하여 모양을 기반으로 물체를 식별하는 데 도움을 줍니다. 그런 다음 SVM은 이러한 특징을 분류하여 물체의 신원을 파악했습니다. 이러한 방법은 정확도는 향상되었지만 실제 환경에서는 여전히 어려움을 겪었고 오늘날의 기술에 비해 속도가 느렸습니다.
2010년대 들어 딥 러닝과 합성곱 신경망(CNN) 이 등장하면서 객체 감지에 큰 변화가 일어났습니다. CNN을 통해 컴퓨터가 대량의 데이터에서 중요한 특징을 자동으로 학습할 수 있게 되면서 감지가 훨씬 더 정확해졌습니다.
R-CNN(지역 기반 컨볼루션 신경망 )과 같은 초기 모델은 정밀도가 크게 향상되어 이전 방법보다 물체를 더 정확하게 식별하는 데 도움이 되었습니다.
그러나 이러한 모델은 이미지를 여러 단계로 처리하기 때문에 속도가 느려 자율주행차나 비디오 감시와 같은 분야의 실시간 애플리케이션에는 실용적이지 못했습니다.
속도를 높이는 데 중점을 두고 보다 효율적인 모델이 개발되었습니다. Fast R-CNN 및 Faster R-CNN과 같은 모델은 관심 영역을 선택하는 방법을 세분화하고 감지에 필요한 단계 수를 줄임으로써 도움이 되었습니다. 이로 인해 객체 감지가 빨라지긴 했지만, 즉각적인 결과를 필요로 하는 많은 실제 애플리케이션에는 여전히 충분하지 않았습니다. 실시간 감지에 대한 수요가 증가함에 따라 속도와 정확성의 균형을 맞출 수 있는 더욱 빠르고 효율적인 솔루션의 개발이 필요해졌습니다.
YOLO 는 이미지와 동영상에서 여러 객체를 실시간으로 감지할 수 있도록 하여 컴퓨터 비전을 재정의한 객체 감지 모델로, 이전의 감지 방법과는 매우 독특합니다. YOLO 의 아키텍처는 감지된 각 객체를 개별적으로 분석하는 대신 객체 감지를 단일 작업으로 처리하여 CNN을 사용하여 객체의 위치와 클래스를 한 번에 예측합니다.
이 모델은 이미지를 격자로 나누고 각 부분이 해당 영역의 물체를 감지하는 방식으로 작동합니다. 각 섹션에 대해 여러 번의 예측을 수행한 후 신뢰도가 낮은 결과를 필터링하여 정확한 결과만 유지합니다.
컴퓨터 비전 애플리케이션에 YOLO 을 도입하면서 이전 모델보다 훨씬 빠르고 효율적으로 물체를 감지할 수 있게 되었습니다. 속도와 정확성 덕분에 YOLO 은 제조, 의료, 로봇 공학 등의 산업 분야에서 실시간 솔루션으로 빠르게 인기를 얻게 되었습니다.
또 한 가지 중요한 점은 YOLO 이 오픈 소스이기 때문에 개발자와 연구자들이 지속적으로 개선하여 더욱 발전된 버전을 만들 수 있다는 점입니다.
YOLO 모델은 시간이 지남에 따라 각 버전의 발전을 바탕으로 꾸준히 개선되어 왔습니다. 이러한 개선으로 성능 향상과 함께 다양한 수준의 기술 경험을 가진 사람들이 더 쉽게 모델을 사용할 수 있게 되었습니다.
예를 들어 Ultralytics YOLOv5 이 도입되면서 모델 배포가 더 간단해졌고 PyTorch을 통해 더 많은 사용자가 고급 AI로 작업할 수 있게 되었습니다. 정확성과 유용성이 결합되어 더 많은 사람들이 코딩 전문가가 아니어도 객체 감지 기능을 구현할 수 있게 되었습니다.
Ultralytics YOLOv8 인스턴스 세분화와 같은 작업에 대한 지원을 추가하고 모델을 더욱 유연하게 만들면서 이러한 진전을 이어나갔습니다. 기본 애플리케이션과 복잡한 애플리케이션 모두에 YOLO 을 사용하기 쉬워져 다양한 시나리오에서 유용하게 사용할 수 있게 되었습니다.
최신 모델에서는 Ultralytics YOLO11으로 더욱 최적화되었습니다. 매개변수 수는 줄이면서 정확도는 향상되어 이제 실시간 작업에 더욱 효율적입니다. 숙련된 개발자이든 AI를 처음 접하는 개발자이든, YOLO11 에서 쉽게 액세스할 수 있는 고급 객체 감지 접근 방식을 제공합니다.
YOLO11 Ultralytics의 연례 하이브리드 이벤트인 YOLO Vision 2024(YV24)에서 출시된 이 모델은 물체 감지, 인스턴스 분할, 이미지 분류, 포즈 추정과 같은 과 동일한 YOLOv8컴퓨터 비전 작업을 지원합니다. 따라서 사용자는 워크플로우를 조정할 필요 없이 이 새로운 모델로 쉽게 전환할 수 있습니다. 또한 의 업그레이드된 아키텍처는 더욱 정확한 예측을 가능하게 합니다. 실제로 YOLO11m은 YOLO11COCO 데이터 세트에서 YOLOv8m 보다 22% 적은 수의 매개변수로 더 높은 평균 정밀도(mAP)를 달성했습니다.
YOLO11 는 스마트폰과 기타 엣지 디바이스부터 더욱 강력한 클라우드 시스템까지 다양한 플랫폼에서 효율적으로 실행되도록 설계되었습니다. 이러한 유연성은 실시간 애플리케이션을 위한 다양한 하드웨어 설정에서 원활한 성능을 보장합니다. 또한 YOLO11 은 더 빠르고 효율적이어서 계산 비용을 절감하고 추론 시간을 단축할 수 있습니다. Ultralytics Python 패키지를 사용하든, 코드가 필요 없는 Ultralytics HUB를 사용하든, 기존 워크플로에 쉽게 통합할 수 있습니다. YOLO11 기존 워크플로우에 쉽게 통합할 수 있습니다.
고급 객체 감지가 실시간 애플리케이션과 엣지 AI에 미치는 영향은 이미 산업 전반에 걸쳐 나타나고 있습니다. 석유 및 가스, 의료, 소매업과 같은 분야에서 AI에 대한 의존도가 높아지면서 빠르고 정확한 물체 감지에 대한 수요가 계속 증가하고 있습니다. YOLO11 는 컴퓨팅 성능이 제한된 디바이스에서도 고성능 감지를 가능하게 함으로써 이러한 수요에 대응하는 것을 목표로 합니다.
엣지 AI가 성장함에 따라 속도와 정확성이 중요한 환경에서 실시간 의사결정을 내리는 데 YOLO11 같은 객체 감지 모델이 더욱 필수적인 요소가 될 것입니다. 설계와 적응성이 지속적으로 개선됨에 따라 객체 감지의 미래는 다양한 애플리케이션에 걸쳐 더욱 많은 혁신을 가져올 것으로 보입니다.
물체 감지는 단순한 방법에서 오늘날의 고급 딥러닝 기술로 발전하면서 먼 길을 걸어왔습니다. YOLO 모델은 이러한 발전의 중심에 있었으며 다양한 산업 분야에서 더 빠르고 정확한 실시간 감지를 제공합니다. YOLO11 이러한 유산을 기반으로 효율성을 개선하고 계산 비용을 절감하며 정확도를 향상시켜 다양한 실시간 애플리케이션에 신뢰할 수 있는 선택이 될 수 있도록 합니다. AI와 컴퓨터 비전의 지속적인 발전으로 물체 감지의 미래는 밝아 보이며 속도, 정밀도, 적응성이 더욱 개선될 여지가 있습니다.
AI에 대해 궁금하신가요? 저희 커뮤니티와 소통하며 계속 학습하세요! GitHub 리포지토리를 확인하여 제조 및 의료와 같은 산업에서 AI를 사용하여 혁신적인 솔루션을 만드는 방법을 알아보세요. 🚀