녹색 확인
링크가 클립보드에 복사됨

Ultralytics YOLO11 손 키포인트 추정 향상

실시간 제스처 인식과 같은 애플리케이션에서 포즈 추정을 지원하는 Ultralytics YOLO11 통해 AI 기반 손 키포인트 추정에 대해 알아보세요.

최근 슈퍼볼의 수화 통역사가 많은 관심을 받고 있습니다. TV에서 좋아하는 아티스트의 노래를 부르는 모습을 볼 때 수화를 아는 사람은 뇌가 손동작을 처리하기 때문에 노래를 이해할 수 있습니다. 하지만 컴퓨터가 똑같이 할 수 있다면 어떨까요? AI 기반 손 추적 솔루션 덕분에 기계가 손의 움직임을 놀라운 정확도로 추적하고 해석하는 것이 가능해졌습니다.

이러한 솔루션의 핵심은 컴퓨터 비전의 하위 분야로, 기계가 시각 정보를 처리하고 이해할 수 있도록 하는 AI의 한 분야입니다. 비전 AI는 이미지와 동영상을 분석하여 물체를 감지하고, 움직임을 추적하고, 복잡한 제스처를 놀라운 정확도로 인식할 수 있도록 지원합니다.

예를 들어, 다음과 같은 컴퓨터 비전 모델은 Ultralytics YOLO11 와 같은 컴퓨터 비전 모델은 포즈 추정을 사용하여 실시간으로 손 키포인트를 감지하고 분석하도록 훈련할 수 있습니다. 이렇게 함으로써 이러한 모델을 제스처 인식, 수화 번역, AR/VR 상호 작용과 같은 애플리케이션에 사용할 수 있습니다. 

이 글에서는 YOLO11 통해 AI 기반 손 추적을 가능하게 하는 방법, 훈련에 사용되는 데이터 세트, 손 포즈 추정을 위한 모델을 맞춤 훈련하는 방법에 대해 살펴봅니다. 또한 실제 적용 사례도 살펴볼 것입니다. 시작해 보겠습니다!

AI 기반 손 키포인트 감지 이해하기

AI는 손목, 손가락 끝, 손가락 관절과 같은 키포인트를 식별하여 시각 데이터에서 손의 움직임을 인식하고 추적하는 데 사용할 수 있습니다. 포즈 추정이라고 하는 한 가지 접근 방식은 키포인트를 매핑하고 시간에 따라 어떻게 변화하는지 분석하여 컴퓨터가 사람의 움직임을 이해하는 데 도움이 됩니다. 이를 통해 AI 시스템은 몸의 자세, 제스처, 동작 패턴을 높은 정확도로 해석할 수 있습니다.

컴퓨터 비전 모델은 이미지나 동영상을 분석하여 손의 키포인트를 식별하고 그 움직임을 추적함으로써 이를 가능하게 합니다. 이러한 포인트가 매핑되면 AI는 키포인트 간의 공간적 관계와 시간에 따른 변화를 분석하여 제스처를 인식할 수 있습니다. 

예를 들어 엄지와 검지 사이의 거리가 줄어들면 AI는 이를 꼬집는 동작으로 해석할 수 있습니다. 마찬가지로 키포인트가 순서대로 움직이는 방식을 추적하면 복잡한 손동작을 식별하고 향후 움직임을 예측하는 데 도움이 됩니다.

그림 1. 컴퓨터 비전을 사용하여 손의 키 포인트를 인식하는 예시입니다.

흥미롭게도 손 추적을 위한 포즈 추정은 스마트 기기의 핸즈프리 제어부터 로봇의 정밀도 향상과 의료 분야에서의 지원까지 흥미로운 가능성을 열어주었습니다. AI와 컴퓨터 비전이 계속 발전함에 따라 손 추적은 일상 생활에서 기술을 더욱 인터랙티브하고 접근 가능하며 직관적으로 만드는 데 더 큰 역할을 할 것입니다.

포즈 추정을 위한 YOLO11 살펴보기

AI 기반 손 추적 솔루션을 만드는 방법을 살펴보기 전에 포즈 추정에 대해 자세히 알아보고 YOLO11 이 컴퓨터 비전 작업을 어떻게 지원하는지 살펴보겠습니다. 전체 객체를 식별하는 표준 객체 감지와 달리, 포즈 추정은 관절, 팔다리 또는 가장자리와 같은 주요 랜드마크를 감지하여 움직임과 자세를 분석하는 데 중점을 둡니다. 

특히, Ultralytics YOLO11 실시간 포즈 추정을 위해 설계되었습니다. 하향식 및 상향식 방식을 모두 활용하여 한 번에 효율적으로 사람을 감지하고 키포인트를 추정함으로써 속도와 정확성 면에서 이전 모델보다 뛰어난 성능을 발휘합니다.

YOLO11 기본적으로 COCO-Pose 데이터 세트에 대해 사전 학습된 상태로 제공되며 머리, 어깨, 팔꿈치, 손목, 엉덩이, 무릎, 발목 등 인체의 주요 지점을 인식할 수 있습니다. 

그림 2. 사람 포즈 추정에 YOLO11 사용.

사람의 포즈 추정 외에도 YOLO11 애니메이션과 무생물을 포함한 다양한 물체의 키포인트를 감지하도록 맞춤 학습할 수 있습니다. 이러한 유연성 덕분에 YOLO11 다양한 애플리케이션에 적합한 옵션입니다.

손 키포인트 데이터 세트 개요

모델 맞춤 학습의 첫 번째 단계는 데이터를 수집하고 주석을 달거나 프로젝트의 요구 사항에 맞는 기존 데이터 세트를 찾는 것입니다. 예를 들어, 손 키포인트 데이터 세트는 손 추적 및 포즈 추정을 위한 비전 AI 모델 훈련에 좋은 출발점입니다. 26,768개의 주석이 달린 이미지가 포함되어 있어 수동으로 라벨을 붙일 필요가 없습니다. 

손의 움직임을 감지하고 추적하는 방법을 빠르게 학습하기 위해 Ultralytics YOLO11 같은 모델을 훈련하는 데 사용할 수 있습니다. 이 데이터 세트에는 손목, 손가락, 관절을 포함하는 손당 21개의 키포인트가 포함되어 있습니다. 또한 데이터 세트의 주석은 실시간 미디어 처리를 위한 AI 기반 솔루션 개발 도구인 Google MediaPipe로 생성되어 정확하고 신뢰할 수 있는 키포인트 감지를 보장합니다. 

그림 3. 손 키포인트 데이터 세트에 포함된 21개의 키포인트.

이와 같이 구조화된 데이터 세트를 사용하면 시간을 절약하고 개발자가 데이터 수집과 라벨링 대신 모델 훈련과 미세 조정에 집중할 수 있습니다. 실제로 데이터 세트는 이미 훈련(18,776개 이미지)과 검증(7,992개 이미지) 하위 집합으로 나뉘어 있어 모델 성능을 쉽게 평가할 수 있습니다. 

손 포즈 추정을 위한 YOLO11 훈련 방법

손 포즈 추정을 위한 YOLO11 훈련은 매우 간단한 과정이며, 특히 Ultralytics Python 패키지를 사용하면 모델 설정과 훈련이 더욱 쉬워집니다. 손 키포인트 데이터 세트는 이미 훈련 파이프라인에서 지원되므로 별도의 포맷 없이 바로 사용할 수 있어 시간과 노력을 절약할 수 있습니다.

교육 과정은 다음과 같습니다:

  • 환경을 설정합니다: 첫 번째 단계는 Ultralytics Python 패키지를 설치하는 것입니다.
  • 손 키포인트 데이터 세트를 로드합니다: YOLO11 이 데이터세트를 기본적으로 지원하므로 자동으로 다운로드하여 준비할 수 있습니다.
  • 사전 훈련된 모델 사용: 사전 학습된 YOLO11 포즈 추정 모델로 시작하면 정확도를 높이고 학습 프로세스의 속도를 높일 수 있습니다.
    ↪cf_200D↩
  • 모델 훈련하기: 모델은 여러 번의 훈련 주기를 거쳐 손 키 포인트를 감지하고 추적하는 방법을 학습합니다.
    ↪f_200D↩
  • 성능 모니터링: Ultralytics 패키지는 정확도 및 손실과 같은 주요 지표를 추적하는 기본 제공 도구도 제공하여 시간이 지남에 따라 모델이 개선되도록 지원합니다.
    ↪f_200D↩
  • 저장 및 배포: 학습이 완료되면 모델을 내보내 실시간 손 추적 애플리케이션에 사용할 수 있습니다.

맞춤 학습된 모델 평가하기

사용자 지정 모델을 만드는 단계를 진행하다 보면 성능 모니터링이 필수적이라는 것을 알 수 있습니다. 훈련 중 진행 상황을 추적하는 것과 함께, 모델이 손 키포인트를 정확하게 감지하고 추적하는지 확인하기 위해 사후에 모델을 평가하는 것이 중요합니다. 

정확도, 손실 값, 평균 평균 정밀도(mAP) 같은 주요 성능 메트릭은 모델의 성능을 평가하는 데 도움이 됩니다. Ultralytics Python 패키지는 결과를 시각화하고 예측을 실제 주석과 비교할 수 있는 기본 제공 도구를 제공하므로 개선이 필요한 부분을 쉽게 파악할 수 있습니다.

모델의 성능을 더 잘 이해하기 위해 학습 로그에서 자동으로 생성되는 손실 곡선, 정밀도-리콜 플롯, 혼동 행렬과 같은 평가 그래프를 확인할 수 있습니다. 

이러한 그래프는 과적합(모델이 학습 데이터를 암기했지만 새로운 데이터에 어려움을 겪는 경우) 또는 과소적합(모델이 패턴을 충분히 학습하지 못해 정확하게 수행하지 못하는 경우)과 같은 문제를 식별하고 정확도를 높이기 위한 조정을 안내하는 데 도움이 됩니다. 또한 새로운 이미지나 동영상에 대해 모델을 테스트하여 실제 시나리오에서 얼마나 잘 작동하는지 확인하는 것도 중요합니다.

AI 기반 핸드 트래킹 솔루션의 적용 사례

다음으로, 가장 영향력 있는 손 키포인트 추정 애플리케이션 중 하나인 Ultralytics YOLO11 대해 살펴보겠습니다.

YOLO11 통한 실시간 제스처 인식

손을 흔들기만 하면 TV의 볼륨을 조절하거나 허공을 스와이프하는 간단한 동작으로 스마트 홈 시스템을 탐색할 수 있다고 가정해 봅시다. YOLO11 실시간 제스처 인식 기능은 손의 움직임을 실시간으로 정확하게 감지하여 이러한 터치 없는 상호 작용을 가능하게 합니다. 

이 기능은 AI 카메라를 사용하여 손의 주요 지점을 추적하고 제스처를 명령으로 해석하는 방식으로 작동합니다. 깊이 감지 카메라, 적외선 센서 또는 일반 웹캠으로도 손의 움직임을 포착할 수 있지만, YOLO11 데이터를 처리하여 다양한 제스처를 인식할 수 있습니다. 예를 들어, 이러한 시스템은 스와이프하여 노래를 변경하거나 핀치하여 확대하거나 원을 그리며 볼륨을 조절하는 동작의 차이를 구분할 수 있습니다.

수화 인식을 위한 AI 기반 손 키포인트 감지

손 추적용 AI 솔루션은 청각장애인과 수화를 모르는 사람 간의 원활한 의사소통을 지원할 수 있습니다. 예를 들어 카메라와 YOLO11 통합된 스마트 기기를 사용하면 수어를 텍스트나 음성으로 즉시 번역할 수 있습니다. 

YOLO11 같은 발전 덕분에 수어 번역 도구의 정확성과 접근성이 더욱 향상되고 있습니다. 이는 보조 기술, 실시간 번역 서비스, 교육 플랫폼과 같은 애플리케이션에 영향을 미칩니다. AI는 직장, 학교, 공공장소에서 의사소통의 격차를 해소하고 포용성을 증진하는 데 도움이 될 수 있습니다.

손 추적을 위한 컴퓨터 비전 AR 및 VR 경험 개선

컨트롤러 없이도 물체를 잡을 수 있는 가상현실(VR) 게임을 해본 적이 있나요? 컴퓨터 비전으로 구동되는 손 추적 기능은 증강 현실(AR) 및 VR 환경에서 사용자가 자연스럽게 상호작용할 수 있도록 하여 이를 가능하게 합니다. 

그림 4. 손 추적은 AR 및 VR 애플리케이션의 핵심 부분입니다.

Ultralytics YOLO11 같은 모델을 사용한 손 키포인트 추정을 통해 AI는 실시간으로 움직임을 추적하여 집기, 잡기, 스와이프와 같은 제스처를 구현할 수 있습니다. 이를 통해 게임, 가상 교육, 원격 협업이 향상되어 상호 작용이 더욱 직관적으로 이루어집니다. 핸드 트래킹 기술이 개선됨에 따라 AR과 VR은 더욱 몰입감 있고 생생하게 느껴질 것입니다. 

주요 요점

Ultralytics YOLO11 사용한 손 키포인트 추정으로 AI 기반 손 추적 솔루션의 접근성과 신뢰성이 향상되고 있습니다. 실시간 제스처 인식부터 수화 통역, AR/VR 애플리케이션에 이르기까지 컴퓨터 비전은 인간과 컴퓨터 간의 상호작용에 새로운 가능성을 열어주고 있습니다.

또한 간소화된 맞춤형 교육과 미세 조정 프로세스는 개발자가 다양한 실제 용도에 맞는 효율적인 모델을 구축하는 데 도움이 됩니다. 컴퓨터 비전 기술이 발전함에 따라 의료, 로봇 공학, 게임, 보안과 같은 분야에서 더 많은 혁신을 기대할 수 있습니다.

커뮤니티에 참여하고 GitHub 리포지토리에서 AI의 발전상을 살펴보세요. 솔루션 페이지를 통해 제조 분야와 의료 분야의 컴퓨터 비전에서 AI가 미치는 영향에 대해 알아보세요. 라이선스 플랜을 살펴보고 지금 바로 AI 여정을 시작하세요!

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기