용어집

데이터 라벨링

머신 러닝에서 데이터 라벨링의 중요한 역할과 그 프로세스, 과제, AI 개발의 실제 적용 사례에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 라벨링은 이미지, 동영상, 텍스트, 오디오 등의 원시 데이터에 정보를 제공하는 태그나 주석을 추가하는 필수적인 프로세스입니다. 이러한 라벨은 컨텍스트를 제공하여 머신러닝(ML) 모델이 데이터를 정확하게 이해하고 해석할 수 있게 해줍니다. 지도 학습에서 레이블이 지정된 데이터는 모델이 패턴을 식별하고 미래를 예측하기 위해 학습하는 검증된 정답인 '근거 데이터' 역할을 합니다. 이러한 라벨의 품질과 정확성은 모델 성능에 직접적인 영향을 미치므로 데이터 라벨링은 특히 컴퓨터 비전(CV)과 같은 분야에서 신뢰할 수 있는 인공 지능(AI) 시스템을 구축하는 데 있어 기본적인 단계가 됩니다.

데이터 라벨링의 중요성

고품질의 레이블이 지정된 데이터는 성공적인 ML 프로젝트의 기반이 됩니다. 다음과 같은 모델 Ultralytics YOLO 와 같은 모델은 효과적인 학습을 위해 정확하게 레이블이 지정된 데이터 세트에 크게 의존합니다. 일관되지 않거나 부정확한 레이블은 실제 시나리오에서 모델이 제대로 작동하지 않고 신뢰할 수 없는 예측을 하게 만들 수 있습니다. 라벨링을 포함한 데이터 준비는 종종 AI 프로젝트에 투자되는 시간의 상당 부분을 차지하기 때문에 그 중요성이 강조됩니다. Anaconda 데이터 과학 현황 보고서와 같은 일부 보고서에 따르면 데이터 준비에 데이터 과학자의 시간이 많이 소요되는 것으로 나타났습니다.

데이터 라벨링 프로세스

데이터에 라벨을 붙이는 과정에는 일반적으로 여러 단계가 포함됩니다:

  1. 데이터 수집: 라벨링이 필요한 원시 데이터(이미지, 동영상 등)를 수집합니다.
  2. 가이드라인 정의: 일관성을 유지하기 위해 라벨을 적용하는 방법에 대한 명확한 지침과 표준을 수립하는 것입니다.
  3. 주석: 전문 도구를 사용하여 정의된 가이드라인에 따라 데이터에 레이블을 적용하는 작업입니다. 이를 데이터 어노테이션이라고도 합니다.
  4. 품질 보증(QA): 라벨링된 데이터를 검토하여 정확성, 일관성 및 가이드라인 준수 여부를 확인합니다.

실제 단계에 대해 자세히 알아보려면 Ultralytics 데이터 수집 및 주석 가이드를 참조하세요.

컴퓨터 비전에서 데이터 라벨링의 유형

이력서 작업마다 다른 유형의 레이블이 필요합니다:

  • 바운딩 박스: 객체 감지를 위해 관심 객체 주위에 직사각형을 그립니다.
  • 다각형/마스크: 이미지 세분화를 위해 픽셀 수준에서 개체의 정확한 모양을 윤곽을 그립니다.
  • 키포인트: 포즈 추정을 위해 오브젝트의 특정 지점(예: 인체의 관절)을 표시합니다.
  • 분류 태그: 전체 이미지에 하나의 레이블을 지정하여 콘텐츠를 분류합니다.

애플리케이션 및 실제 사례

데이터 라벨링은 다양한 분야에 걸쳐 수많은 AI 애플리케이션의 원동력이 됩니다:

  • 헬스케어: 의료 이미지(예: 암 영상 아카이브(TCIA)와 같은 리소스의 엑스레이 또는 MRI)에 라벨을 지정하여 질병이나 이상을 감지하는 모델을 학습시킵니다. 의료 분야의 AI에서 자세히 알아보세요.
  • 자율주행 차량: 자율주행차가 보행자, 차량, 교통 표지판을 인식하도록 학습시키기 위해 Waymo 오픈 데이터 세트와 같은 데이터 세트의 센서 데이터(카메라 이미지, LiDAR 포인트 클라우드)에 주석을 달기. 자동차 분야의 AI 살펴보기.
  • 리테일: 이미지로 진열대에 있는 제품에 태그를 지정하여 재고 관리를 자동화하거나 고객 행동을 분석할 수 있습니다.
  • 농업: 작물의 이미지에 라벨을 붙여 건강을 모니터링하고, 질병을 감지하거나, 수확량을 예측합니다.

관련 개념

데이터 라벨링은 다른 주요 ML 개념과 밀접하게 연결되어 있습니다:

  • 데이터 증강: 기존 데이터에 회전이나 밝기 변화와 같은 변환을 적용하여 라벨이 지정된 데이터 세트의 크기와 다양성을 인위적으로 늘리는 데 사용되는 기술입니다. 자세한 내용은 데이터 증강에 대한 개요에서 확인할 수 있습니다.
  • 데이터 전처리: 레이블을 지정하거나 학습에 사용하기 전에 원시 데이터를 정리, 포맷 및 준비하는 단계입니다.
  • 지도 학습: 비지도 학습 또는 강화 학습과 대조적으로 레이블이 지정된 데이터에 의존하여 모델을 학습시키는 ML 패러다임입니다. 이에 대한 자세한 내용은 Wikipedia의 지도 학습 페이지에서 확인할 수 있습니다.

데이터 라벨링의 과제

데이터 라벨링의 중요성에도 불구하고 데이터 라벨링에는 여러 가지 어려움이 있습니다:

  • 비용과 시간: 대규모 데이터 세트에 라벨을 붙이는 작업은 비용과 시간이 많이 소요될 수 있으며, 종종 상당한 인력이 필요할 수 있습니다.
  • 품질 관리: 라벨 전반에 걸쳐 높은 정확도와 일관성을 보장하는 것은 어렵지만 모델 성능을 위해 매우 중요합니다. 높은 데이터 품질을 유지하는 것이 가장 중요합니다.
  • 주관성: 일부 작업은 주관적인 판단이 필요하므로 라벨 제작자 간에 불일치가 발생할 수 있습니다.
  • 확장성: 매우 큰 데이터 세트의 라벨링 작업을 관리하고 확장하는 것은 복잡할 수 있습니다.

능동 학습과 같은 기술은 위키피디아의 능동 학습 페이지에 설명된 대로 가장 유익한 데이터 요소를 먼저 지능적으로 선택하여 라벨링 부담을 줄이고 전반적인 노력을 줄이는 것을 목표로 합니다.

도구 및 플랫폼

다양한 도구를 통해 데이터 라벨링 프로세스를 간소화할 수 있습니다. Ultralytics HUB는 컴퓨터 비전 작업을 위해 설계된 통합 데이터 세트 관리 및 라벨링 기능을 제공합니다. 다른 인기 있는 오픈 소스 및 상용 플랫폼으로는 Label Studio와 CVAT(컴퓨터 비전 주석 도구)가 있습니다.

모두 보기