최신 컴퓨터 비전 모델인 YOLO12를 만나보세요! 주의 집중 아키텍처와 플래시어텐션 기술이 어떻게 산업 전반의 물체 감지 작업을 향상시키는지 알아보세요.
컴퓨터 비전은 기계가 이미지와 동영상을 이해하도록 돕는 인공지능(AI)의 한 분야입니다. AI 연구자와 개발자들이 끊임없이 한계를 뛰어넘기 때문에 놀라운 속도로 발전하고 있는 분야입니다. AI 커뮤니티는 항상 더 빠르고, 더 똑똑하고, 더 효율적인 모델을 만드는 것을 목표로 삼고 있습니다. 가장 최근의 혁신 중 하나는 2025년 2월 18일에 출시된 YOLO (You Only Look Once) 모델 시리즈에 새로 추가된 YOLO12입니다.
YOLO12는 버팔로 대학교, 뉴욕주립대학교(SUNY), 중국과학원 연구진에 의해 개발되었습니다. YOLO12는 독특하고 새로운 접근 방식으로 주의 메커니즘을 도입하여 모델이 모든 이미지를 균등하게 처리하는 대신 가장 중요한 부분에 집중할 수 있도록 합니다.
또한 메모리를 적게 사용하면서 처리 속도를 높이는 기술인 플래시어텐션과 사람이 자연스럽게 중심 사물에 집중하는 방식을 모방하도록 설계된 영역 집중 메커니즘이 특징입니다.
이러한 개선으로 인해 YOLO12n은 YOLOv10n보다 2.1% 더 정확하고 YOLO12m은 YOLO11m보다 +1.0% 더 정확해졌습니다. 그러나 여기에는 YOLO12n은 YOLOv10n보다 9% 느리고, YOLO12m은 YOLO11m보다 3% 느리다는 단점이 있습니다.
이 글에서는 YOLO12의 달라진 점, 이전 버전과 비교한 점, 적용 가능한 부분에 대해 살펴봅니다.
YOLO 모델 시리즈는 실시간 객체 감지를 위해 설계된 컴퓨터 비전 모델 모음으로, 이미지와 동영상에서 객체를 빠르게 식별하고 위치를 찾을 수 있습니다. 시간이 지남에 따라 각 버전은 속도, 정확성, 효율성 측면에서 개선되었습니다.
예를 들어 Ultralytics YOLOv5는 빠르고 쉽게 사용자 지정 교육 및 배포가 가능하여 2020년에 출시되어 널리 사용되었습니다. 나중에 Ultralytics YOLOv8 은 인스턴스 세분화 및 객체 추적과 같은 컴퓨터 비전 작업을 추가로 지원하여 이를 개선했습니다.
최근에는 Ultralytics YOLO11 은 속도와 정확도 사이의 균형을 유지하면서 실시간 처리를 개선하는 데 중점을 두었습니다. 예를 들어, YOLO11m은 YOLOv8m 파라미터 수가 22% 더 적으면서도 객체 감지 모델을 평가하는 데 널리 사용되는 벤치마크인 COCO 데이터 세트에서 더 나은 감지 성능을 제공했습니다.
이러한 발전을 바탕으로 YOLO12는 시각 정보 처리 방식에 변화를 도입했습니다. 이미지의 모든 부분을 동일하게 처리하는 대신 가장 관련성이 높은 영역에 우선순위를 부여하여 감지 정확도를 향상시킵니다. 간단히 말해, YOLO12는 이전의 개선 사항을 기반으로 더욱 정밀한 검색을 목표로 합니다.
YOLO12는 실시간 처리 속도를 그대로 유지하면서 컴퓨터 비전 작업을 향상시키는 몇 가지 개선 사항을 도입했습니다. 다음은 YOLO12의 주요 기능에 대한 개요입니다:
이러한 기능이 실생활에서 어떻게 작동하는지 이해하려면 쇼핑몰을 예로 들어보세요. YOLO12는 쇼핑객을 추적하고, 화분이나 홍보 간판과 같은 매장 장식을 식별하고, 잘못 배치되거나 버려진 상품을 발견하는 데 도움을 줄 수 있습니다.
주의 집중형 아키텍처를 통해 가장 중요한 세부 사항에 집중할 수 있으며, 플래시어텐션은 시스템 과부하 없이 모든 것을 빠르게 처리합니다. 이를 통해 쇼핑몰 운영자는 보안을 개선하고 매장 레이아웃을 구성하며 전반적인 쇼핑 경험을 향상시킬 수 있습니다.
하지만 YOLO12에는 고려해야 할 몇 가지 제한 사항도 있습니다:
YOLO12는 다양한 요구사항에 최적화된 여러 버전으로 제공됩니다. 소형 버전(나노 및 소형)은 속도와 효율성을 우선시하여 모바일 디바이스 및 엣지 컴퓨팅에 이상적입니다. 중형 및 대형 버전은 속도와 정확성 사이의 균형을 맞추고, YOLO12x(초대형)는 산업 자동화, 의료 영상 및 고급 감시 시스템과 같은 고정밀 애플리케이션을 위해 설계되었습니다.
이러한 변형을 통해 YOLO12는 모델 크기에 따라 다양한 수준의 성능을 제공합니다. 벤치마크 테스트에 따르면 YOLO12의 특정 변형은 정확도 면에서 YOLOv10 및 YOLO11 더 높은 평균 정밀도(mAP)를 달성하는 것으로 나타났습니다.
그러나 YOLO12m, YOLO12l, YOLO12x와 같은 일부 모델은 YOLO11 이미지를 느리게 처리하여 감지 정확도와 속도 간에 상충되는 모습을 보입니다. 그럼에도 불구하고 YOLO12는 다른 많은 모델보다 더 적은 수의 매개변수를 필요로 하지만 여전히 YOLO11 더 많은 매개변수를 사용하므로 효율적입니다. 따라서 원시 속도보다 정확도가 더 중요한 애플리케이션에 적합한 선택입니다.
YOLO12는 Ultralytics Python 패키지로 지원되며 사용이 간편해 초보자부터 전문가까지 누구나 쉽게 이용할 수 있습니다. 사용자는 몇 줄의 코드만으로 사전 학습된 모델을 로드하고 이미지와 비디오에서 다양한 컴퓨터 비전 작업을 실행하며 사용자 지정 데이터 세트에 대해 YOLO12를 학습시킬 수 있습니다. Ultralytics Python 패키지는 프로세스를 간소화하여 복잡한 설정 단계가 필요하지 않습니다.
예를 들어, 객체 감지에 YOLO12를 사용하려면 다음과 같은 단계를 거쳐야 합니다:
이러한 단계를 통해 YOLO12는 감시 및 소매 추적부터 의료 영상 및 자율 주행 차량에 이르기까지 다양한 애플리케이션에 쉽게 사용할 수 있습니다.
YOLO12는 객체 감지, 인스턴스 분할, 이미지 분류, 포즈 추정, 방향성 객체 감지(OBB) 등을 지원하므로 다양한 실제 애플리케이션에서 사용할 수 있습니다.
하지만 앞서 설명한 것처럼 YOLO12 모델은 속도보다 정확성을 우선시하기 때문에 이전 버전에 비해 이미지 처리 시간이 약간 더 오래 걸립니다. 이러한 절충점 덕분에 YOLO12는 실시간 속도보다 정확도가 더 중요한 애플리케이션에 이상적입니다:
YOLO12를 실행하기 전에 시스템이 필요한 요구 사항을 충족하는지 확인하는 것이 중요합니다.
기술적으로 YOLO12는 모든 전용 GPU (그래픽 처리 장치)에서 실행할 수 있습니다. 기본적으로 플래시어텐션이 필요하지 않으므로 플래시어텐션 없이도 대부분의 GPU 시스템에서 작동할 수 있습니다. 하지만 플래시어텐션을 활성화하면 속도 저하를 방지하고 메모리 사용량을 줄이며 처리 효율성을 개선할 수 있으므로 대용량 데이터 세트나 고해상도 이미지로 작업할 때 특히 유용할 수 있습니다.
플래시어텐션을 사용하려면 다음 시리즈 중 하나의 NVIDIA GPU 필요합니다: Turing(T4, Quadro RTX), Ampere(RTX 30 시리즈, A30, A40, A100), Ada Lovelace(RTX 40 시리즈) 또는 Hopper(H100, H200).
사용성과 접근성을 염두에 두고 설치가 기술적으로 매우 복잡할 수 있기 때문에 Ultralytics Python 패키지는 아직 FlashAttention 추론을 지원하지 않습니다. YOLO12를 시작하고 성능을 최적화하는 방법에 대해 자세히 알아보려면 공식 Ultralytics 설명서를 참조하세요.
컴퓨터 비전이 발전함에 따라 모델은 더욱 정확하고 효율적이 되고 있습니다. YOLO12는 주의 집중 처리와 플래시어텐션으로 객체 감지, 인스턴스 분할, 이미지 분류와 같은 컴퓨터 비전 작업을 개선하여 정확도를 높이는 동시에 메모리 사용을 최적화합니다.
동시에 컴퓨터 비전은 그 어느 때보다 더 쉽게 접근할 수 있습니다. YOLO12는 속도보다 정확성에 중점을 둔 Ultralytics Python 패키지를 통해 쉽게 사용할 수 있으며, 정밀도가 중요한 의료 영상, 산업 검사, 로봇 공학 분야에 적합합니다.
AI에 대해 궁금하신가요? GitHub 리포지토리를 방문하여 커뮤니티에 참여하세요. 솔루션 페이지에서 자율 주행 자동차의 AI와 농업 분야의 컴퓨터 비전과 같은 분야의 혁신을 살펴보세요. 라이선스 옵션을 확인하고 비전 AI 프로젝트를 실현하세요. 🚀