데이터 라벨링
머신 러닝에서 데이터 라벨링의 중요한 역할과 그 프로세스, 과제, AI 개발의 실제 적용 사례에 대해 알아보세요.
데이터 라벨링은 이미지, 텍스트 파일, 동영상 등의 원시 데이터를 식별하고 하나 이상의 유익한 라벨이나 주석을 추가하여 컨텍스트를 제공함으로써 머신러닝 모델이 이를 통해 학습할 수 있도록 하는 프로세스입니다. 이 프로세스는 지도 학습의 기본으로, 라벨이 지정된 데이터 세트는 알고리즘이 라벨이 지정되지 않은 새로운 데이터에 대해 정확한 예측을 하기 위해 스스로 학습하는 데 사용하는 '근거 데이터'의 역할을 합니다. 고품질 데이터 라벨링은 모델의 성능이 학습하는 라벨의 품질과 정확도에 직접적으로 의존하기 때문에 강력한 AI 모델을 구축하는 데 있어 가장 중요하고 시간이 많이 소요되는 단계 중 하나입니다.
데이터 라벨링이 중요한 이유는 무엇인가요?
데이터 라벨링은 모델이 세상을 이해하고 해석하는 데 필요한 기초를 제공합니다. 컴퓨터 비전(CV)에서 라벨은 모델이 이미지 내에서 객체가 무엇이고 어디에 있는지 인식하도록 가르칩니다. 정확한 레이블이 없으면 모델은 작업을 수행하는 데 필요한 패턴을 학습할 수 없어 정확도와 신뢰성이 떨어집니다. 라벨링을 통해 생성되는 학습 데이터의 품질은 결과 AI의 품질을 직접적으로 좌우합니다. 이 원칙은 흔히 "가비지 인, 가비지 아웃"으로 요약됩니다. COCO 및 ImageNet과 같이 잘 라벨링된 벤치마크 데이터 세트는 컴퓨터 비전의 최첨단 기술을 발전시키는 데 중요한 역할을 해왔습니다.
컴퓨터 비전에서 데이터 라벨링의 유형
이력서 작업마다 다른 유형의 주석이 필요합니다. 가장 일반적인 방법은 다음과 같습니다:
- 이미지 분류: 가장 간단한 형태로, 전체 이미지에 단일 레이블을 할당하여 그 내용을 설명합니다(예: '고양이', '개'). 이 작업에 대한 데이터 세트는 CIFAR-100과 같은 데이터 세트를 탐색할 수 있습니다.
- 개체 감지: 이미지에서 관심 있는 각 객체 주위에 경계 상자를 그리고 클래스 레이블을 할당하는 작업이 포함됩니다. 이렇게 하면 모델에 물체의 종류와 위치를 모두 알려줍니다.
- 이미지 분할: 픽셀 수준에서 객체의 정확한 모양을 윤곽을 그리는 보다 세분화된 방법입니다. 이는 다시 같은 클래스의 모든 객체가 하나의 마스크를 공유하는 시맨틱 분할과 각 개별 객체 인스턴스가 개별적으로 분할되는 인스턴스 분할로 나눌 수 있습니다.
- 포즈 추정: 이 기술은 키포인트에 주석을 달아 객체의 위치와 방향을 식별합니다. 예를 들어, 사람의 자세 추정에서 키포인트는 팔꿈치, 무릎, 손목과 같은 관절을 표시합니다. COCO 키포인트 데이터 세트는 이 작업에 널리 사용되는 리소스입니다.
실제 애플리케이션
- 자율주행 차량: 데이터 라벨링은 자율주행차의 인식 시스템을 훈련하는 데 필수적입니다. 인간 주석가들은 수백만 개의 이미지와 비디오 프레임에 꼼꼼하게 라벨을 붙이고, 자동차, 보행자, 자전거 주위에 경계 상자를 그리고, 차선 표시를 세분화하고, 교통 표지판을 분류합니다. 이렇게 라벨링된 풍부한 데이터를 통해 Ultralytics YOLO11과 같은 모델은 복잡한 도시 환경을 안전하게 탐색하는 방법을 학습할 수 있습니다. Waymo와 같은 회사에서 수행하는 작업은 방대하고 정확하게 레이블이 지정된 데이터 세트에 크게 의존합니다. 이 분야에 대한 자세한 내용은 자동차 솔루션의 AI 페이지에서 확인할 수 있습니다.
- 의료 이미지 분석: 의료 분야의 AI에서는 방사선 전문의와 의료 전문가가 종양, 병변 및 기타 이상을 식별하기 위해 MRI, CT, 엑스레이와 같은 스캔에 라벨을 붙입니다. 예를 들어, 뇌종양 데이터 세트에서 전문가들은 종양의 정확한 경계를 설명합니다. 이렇게 라벨링된 데이터는 조기 진단에 도움이 되는 모델을 훈련하는 데 사용되어 의료 전문가의 업무량을 줄이고 환자 치료 결과를 개선할 수 있습니다. 북미방사선의학회(RSNA)는 의료 진단에서 AI의 역할을 적극적으로 탐구하고 있습니다.
데이터 라벨링과 관련 개념 비교
데이터 라벨링은 다른 데이터 준비 작업과 함께 수행되는 경우가 많지만, 이를 구분하는 것이 중요합니다:
- 데이터 증강: 이 기술은 이미 레이블이 지정된 데이터의 수정된 버전을 생성하여(예: 이미지 회전, 뒤집기 또는 밝기 변경) 학습 데이터 세트를 인위적으로 확장합니다. 증강은 데이터 다양성을 증가시키지만 라벨이 지정된 초기 데이터 세트에 따라 달라집니다. 데이터 증강에 대한 개요에서 자세한 내용을 확인할 수 있습니다.
- 데이터 정리: 이 프로세스에는 데이터 세트의 오류, 불일치, 부정확성을 식별하고 수정 또는 제거하는 작업이 포함됩니다. 여기에는 잘못된 라벨을 수정하는 것도 포함될 수 있지만, 데이터 정리는 품질 보증 단계인 반면, 데이터 라벨링은 주석을 만드는 초기 작업입니다. Wikipedia의 데이터 정리는 더 자세한 맥락을 제공합니다.
- 데이터 전처리: 데이터 라벨링, 정리 및 모델 준비를 위한 이미지 정규화 또는 크기 조정과 같은 기타 변환을 포괄하는 광범위한 용어입니다. 라벨링은 더 큰 전처리 파이프라인 내에서 구체적이고 중요한 단계입니다.
과제 및 솔루션
데이터 라벨링은 그 중요성에도 불구하고 높은 비용, 상당한 시간 투자, 인적 오류나 주관적 판단의 가능성 등 여러 가지 과제를 안고 있습니다. 대규모의 어노테이터 팀에서 라벨 품질과 일관성을 보장하는 것은 주요한 물류상의 장애물입니다.
이 프로세스를 간소화하기 위해 팀에서는 데이터 세트 관리와 라벨링 워크플로우를 위한 협업 환경을 제공하는 CVAT와 같은 전문화된 주석 도구나 Ultralytics HUB와 같은 플랫폼을 사용하는 경우가 많습니다. 또한, 능동형 학습과 같은 고급 기술은 라벨링할 가장 유익한 데이터 요소를 지능적으로 선택함으로써 인간 주석가의 시간과 노력을 최적화하는 데 도움을 줄 수 있습니다. 스탠포드 AI 연구소의 기사에서 자세히 설명했듯이, 데이터 품질에 초점을 맞추는 것이 성공적인 AI의 핵심입니다.