녹색 확인
링크가 클립보드에 복사됨

YOLO12가 설명합니다: 실제 애플리케이션 및 사용 사례

최신 컴퓨터 비전 모델인 YOLO12를 만나보세요! 주의 집중 아키텍처와 플래시어텐션 기술이 어떻게 산업 전반의 물체 감지 작업을 향상시키는지 알아보세요.

컴퓨터 비전은 기계가 이미지와 동영상을 이해하도록 돕는 인공지능(AI)의 한 분야입니다. AI 연구자와 개발자들이 끊임없이 한계를 뛰어넘기 때문에 놀라운 속도로 발전하고 있는 분야입니다. AI 커뮤니티는 항상 더 빠르고, 더 똑똑하고, 더 효율적인 모델을 만드는 것을 목표로 삼고 있습니다. 가장 최근의 혁신 중 하나는 2025년 2월 18일에 출시된 YOLO (You Only Look Once) 모델 시리즈에 새로 추가된 YOLO12입니다.

YOLO12는 버팔로 대학교, 뉴욕주립대학교(SUNY), 중국과학원 연구진에 의해 개발되었습니다. YOLO12는 독특하고 새로운 접근 방식으로 주의 메커니즘을 도입하여 모델이 모든 이미지를 균등하게 처리하는 대신 가장 중요한 부분에 집중할 수 있도록 합니다. 

또한 메모리를 적게 사용하면서 처리 속도를 높이는 기술인 플래시어텐션과 사람이 자연스럽게 중심 사물에 집중하는 방식을 모방하도록 설계된 영역 집중 메커니즘이 특징입니다.

이러한 개선으로 인해 YOLO12n은 YOLOv10n보다 2.1% 더 정확하고 YOLO12m은 YOLO11m보다 +1.0% 더 정확해졌습니다. 그러나 여기에는 YOLO12n은 YOLOv10n보다 9% 느리고, YOLO12m은 YOLO11m보다 3% 느리다는 단점이 있습니다.

그림 1. YOLO12가 물체를 감지하는 데 사용되는 예시.

이 글에서는 YOLO12의 달라진 점, 이전 버전과 비교한 점, 적용 가능한 부분에 대해 살펴봅니다.

YOLO12 출시까지의 여정

YOLO 모델 시리즈는 실시간 객체 감지를 위해 설계된 컴퓨터 비전 모델 모음으로, 이미지와 동영상에서 객체를 빠르게 식별하고 위치를 찾을 수 있습니다. 시간이 지남에 따라 각 버전은 속도, 정확성, 효율성 측면에서 개선되었습니다.

예를 들어 Ultralytics YOLOv5는 빠르고 쉽게 사용자 지정 교육 및 배포가 가능하여 2020년에 출시되어 널리 사용되었습니다. 나중에 Ultralytics YOLOv8 은 인스턴스 세분화 및 객체 추적과 같은 컴퓨터 비전 작업을 추가로 지원하여 이를 개선했습니다. 

최근에는 Ultralytics YOLO11 은 속도와 정확도 사이의 균형을 유지하면서 실시간 처리를 개선하는 데 중점을 두었습니다. 예를 들어, YOLO11m은 YOLOv8m 파라미터 수가 22% 더 적으면서도 객체 감지 모델을 평가하는 데 널리 사용되는 벤치마크인 COCO 데이터 세트에서 더 나은 감지 성능을 제공했습니다.

이러한 발전을 바탕으로 YOLO12는 시각 정보 처리 방식에 변화를 도입했습니다. 이미지의 모든 부분을 동일하게 처리하는 대신 가장 관련성이 높은 영역에 우선순위를 부여하여 감지 정확도를 향상시킵니다. 간단히 말해, YOLO12는 이전의 개선 사항을 기반으로 더욱 정밀한 검색을 목표로 합니다.

YOLO12의 주요 기능

YOLO12는 실시간 처리 속도를 그대로 유지하면서 컴퓨터 비전 작업을 향상시키는 몇 가지 개선 사항을 도입했습니다. 다음은 YOLO12의 주요 기능에 대한 개요입니다:

  • 주목 중심 아키텍처: YOLO12는 이미지의 모든 부분을 동일하게 처리하는 대신 가장 중요한 영역에 집중합니다. 따라서 정확도가 향상되고 불필요한 처리가 줄어들어 복잡한 이미지에서도 더 선명하고 효율적으로 감지합니다.
  • 플래시어텐션: YOLO12는 더 적은 메모리를 사용하면서 이미지 분석 속도를 높입니다. 플래시어텐션(메모리 효율적인 알고리즘)을 통해 데이터 처리를 최적화하여 하드웨어 부담을 줄이고 실시간 작업을 더 원활하고 안정적으로 처리합니다.
  • 잔여 효율적 레이어 집계 네트워크(R-ELAN): YOLO12는 R-ELAN을 사용해 레이어를 보다 효율적으로 구성하여 모델이 데이터를 처리하고 학습하는 방식을 개선합니다. 이를 통해 학습이 더 안정적이고 물체 인식이 더 선명해지며 컴퓨팅 요구 사항이 낮아져 다양한 환경에서 효율적으로 실행됩니다.

이러한 기능이 실생활에서 어떻게 작동하는지 이해하려면 쇼핑몰을 예로 들어보세요. YOLO12는 쇼핑객을 추적하고, 화분이나 홍보 간판과 같은 매장 장식을 식별하고, 잘못 배치되거나 버려진 상품을 발견하는 데 도움을 줄 수 있습니다. 

주의 집중형 아키텍처를 통해 가장 중요한 세부 사항에 집중할 수 있으며, 플래시어텐션은 시스템 과부하 없이 모든 것을 빠르게 처리합니다. 이를 통해 쇼핑몰 운영자는 보안을 개선하고 매장 레이아웃을 구성하며 전반적인 쇼핑 경험을 향상시킬 수 있습니다.

그림 2. YOLO12를 사용하여 쇼핑몰에서 물체 감지하기.

하지만 YOLO12에는 고려해야 할 몇 가지 제한 사항도 있습니다:

  • 더 느린 훈련 시간: 구조상 YOLO12는 YOLO11 비해 더 많은 교육 시간이 필요합니다.
    ↪f_200D↩
  • 내보내기 문제: 일부 사용자는 YOLO12 모델을 내보낼 때, 특히 특정 배포 환경에 통합할 때 어려움을 겪을 수 있습니다.

YOLO12의 성능 벤치마크 이해하기

YOLO12는 다양한 요구사항에 최적화된 여러 버전으로 제공됩니다. 소형 버전(나노 및 소형)은 속도와 효율성을 우선시하여 모바일 디바이스 및 엣지 컴퓨팅에 이상적입니다. 중형 및 대형 버전은 속도와 정확성 사이의 균형을 맞추고, YOLO12x(초대형)는 산업 자동화, 의료 영상 및 고급 감시 시스템과 같은 고정밀 애플리케이션을 위해 설계되었습니다.

이러한 변형을 통해 YOLO12는 모델 크기에 따라 다양한 수준의 성능을 제공합니다. 벤치마크 테스트에 따르면 YOLO12의 특정 변형은 정확도 면에서 YOLOv10 및 YOLO11 더 높은 평균 정밀도(mAP)를 달성하는 것으로 나타났습니다. 

그러나 YOLO12m, YOLO12l, YOLO12x와 같은 일부 모델은 YOLO11 이미지를 느리게 처리하여 감지 정확도와 속도 간에 상충되는 모습을 보입니다. 그럼에도 불구하고 YOLO12는 다른 많은 모델보다 더 적은 수의 매개변수를 필요로 하지만 여전히 YOLO11 더 많은 매개변수를 사용하므로 효율적입니다. 따라서 원시 속도보다 정확도가 더 중요한 애플리케이션에 적합한 선택입니다.

그림 3. Ultralytics YOLO11 YOLO12 비교.

Ultralytics Python 패키지를 통해 YOLO12 사용

YOLO12는 Ultralytics Python 패키지로 지원되며 사용이 간편해 초보자부터 전문가까지 누구나 쉽게 이용할 수 있습니다. 사용자는 몇 줄의 코드만으로 사전 학습된 모델을 로드하고 이미지와 비디오에서 다양한 컴퓨터 비전 작업을 실행하며 사용자 지정 데이터 세트에 대해 YOLO12를 학습시킬 수 있습니다. Ultralytics Python 패키지는 프로세스를 간소화하여 복잡한 설정 단계가 필요하지 않습니다.

예를 들어, 객체 감지에 YOLO12를 사용하려면 다음과 같은 단계를 거쳐야 합니다:

  • Ultralytics 패키지를 설치합니다: 먼저, YOLO12를 효율적으로 실행하는 데 필요한 도구를 제공하는 Ultralytics Python 패키지를 설치합니다. 이렇게 하면 모든 종속성이 올바르게 설정됩니다.
  • 사전 학습된 YOLO12 모델을 로드합니다: 작업에 필요한 정확도 및 속도 수준에 따라 적절한 YOLO12 변형(나노, 소형, 중형, 대형 또는 초대형)을 선택합니다.
  • 이미지 또는 동영상을 입력합니다: 분석하고자 하는 이미지 또는 동영상 파일을 입력합니다. YOLO12는 실시간 감지를 위해 라이브 비디오 피드도 처리할 수 있습니다.
  • 감지 프로세스를 실행합니다: 모델이 시각적 데이터를 스캔하여 객체를 식별하고 객체 주위에 경계 상자를 배치합니다. 탐지된 각 객체에 예측된 클래스 및 신뢰도 점수로 레이블을 지정합니다.
  • 탐지 설정을 조정합니다: 신뢰도 임계값과 같은 매개변수를 수정하여 탐지 정확도와 성능을 미세 조정할 수도 있습니다.
  • 결과물을 저장하거나 사용합니다: 이제 감지된 객체가 포함된 처리된 이미지 또는 비디오를 저장하거나 애플리케이션에 통합하여 추가 분석, 자동화 또는 의사 결정을 내릴 수 있습니다.

이러한 단계를 통해 YOLO12는 감시 및 소매 추적부터 의료 영상 및 자율 주행 차량에 이르기까지 다양한 애플리케이션에 쉽게 사용할 수 있습니다.

실용적인 YOLO12 애플리케이션

YOLO12는 객체 감지, 인스턴스 분할, 이미지 분류, 포즈 추정, 방향성 객체 감지(OBB) 등을 지원하므로 다양한 실제 애플리케이션에서 사용할 수 있습니다. 

그림 4. YOLO12는 객체 감지 및 인스턴스 세분화와 같은 작업을 지원합니다.

하지만 앞서 설명한 것처럼 YOLO12 모델은 속도보다 정확성을 우선시하기 때문에 이전 버전에 비해 이미지 처리 시간이 약간 더 오래 걸립니다. 이러한 절충점 덕분에 YOLO12는 실시간 속도보다 정확도가 더 중요한 애플리케이션에 이상적입니다:

  • 의료 영상: YOLO12는 엑스레이와 MRI에서 종양이나 이상을 높은 정확도로 감지하도록 맞춤 학습할 수 있어 진단을 위해 정밀한 영상 분석이 필요한 의사 및 방사선 전문의에게 유용한 도구입니다.
    ↪f_200D↩
  • 제조 품질 관리: 생산 과정에서 제품 결함을 식별하여 고품질의 제품만 시장에 출시하는 동시에 낭비를 줄이고 효율성을 개선하는 데 도움이 됩니다.
    ↪f_200D↩
  • 포렌식 분석: 법 집행 기관은 YOLO12를 미세 조정하여 감시 영상을 분석하고 증거를 수집할 수 있습니다. 범죄 수사에서는 주요 세부 사항을 식별하는 데 있어 정밀도가 매우 중요합니다.
  • 정밀 농업: 농부들은 YOLO12를 사용하여 작물의 건강을 분석하고, 질병이나 해충의 침입을 감지하고, 토양 상태를 모니터링할 수 있습니다. 정확한 평가는 농업 전략을 최적화하여 수확량과 자원 관리를 개선하는 데 도움이 됩니다.

YOLO12 시작하기

YOLO12를 실행하기 전에 시스템이 필요한 요구 사항을 충족하는지 확인하는 것이 중요합니다.

기술적으로 YOLO12는 모든 전용 GPU (그래픽 처리 장치)에서 실행할 수 있습니다. 기본적으로 플래시어텐션이 필요하지 않으므로 플래시어텐션 없이도 대부분의 GPU 시스템에서 작동할 수 있습니다. 하지만 플래시어텐션을 활성화하면 속도 저하를 방지하고 메모리 사용량을 줄이며 처리 효율성을 개선할 수 있으므로 대용량 데이터 세트나 고해상도 이미지로 작업할 때 특히 유용할 수 있습니다. 

플래시어텐션을 사용하려면 다음 시리즈 중 하나의 NVIDIA GPU 필요합니다: Turing(T4, Quadro RTX), Ampere(RTX 30 시리즈, A30, A40, A100), Ada Lovelace(RTX 40 시리즈) 또는 Hopper(H100, H200).

사용성과 접근성을 염두에 두고 설치가 기술적으로 매우 복잡할 수 있기 때문에 Ultralytics Python 패키지는 아직 FlashAttention 추론을 지원하지 않습니다. YOLO12를 시작하고 성능을 최적화하는 방법에 대해 자세히 알아보려면 공식 Ultralytics 설명서를 참조하세요.

주요 요점

컴퓨터 비전이 발전함에 따라 모델은 더욱 정확하고 효율적이 되고 있습니다. YOLO12는 주의 집중 처리와 플래시어텐션으로 객체 감지, 인스턴스 분할, 이미지 분류와 같은 컴퓨터 비전 작업을 개선하여 정확도를 높이는 동시에 메모리 사용을 최적화합니다.

동시에 컴퓨터 비전은 그 어느 때보다 더 쉽게 접근할 수 있습니다. YOLO12는 속도보다 정확성에 중점을 둔 Ultralytics Python 패키지를 통해 쉽게 사용할 수 있으며, 정밀도가 중요한 의료 영상, 산업 검사, 로봇 공학 분야에 적합합니다.

AI에 대해 궁금하신가요? GitHub 리포지토리를 방문하여 커뮤니티에 참여하세요. 솔루션 페이지에서 자율 주행 자동차의 AI와 농업 분야의 컴퓨터 비전과 같은 분야의 혁신을 살펴보세요. 라이선스 옵션을 확인하고 비전 AI 프로젝트를 실현하세요. 🚀

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기