용어집

학습 데이터

AI에서 학습 데이터의 중요성에 대해 알아보세요. 양질의 데이터 세트가 실제 작업을 위한 정확하고 강력한 머신 러닝 모델을 어떻게 강화하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

인공지능(AI)머신러닝(ML) 분야에서 학습 데이터는 분류나 예측과 같은 특정 작업을 수행하는 방법을 모델에 가르치는 데 사용되는 기본 데이터 세트입니다. 학습 데이터는 대규모 예제 모음으로 구성되며, 각 예제는 일반적으로 입력과 그에 해당하는 원하는 출력 또는 레이블을 짝을 이룹니다. 지도 학습과 같은 프로세스를 통해 모델은 이 데이터를 분석하고, 기본 패턴과 관계를 식별하고, 내부 매개변수(모델 가중치)를 조정하여 입력에서 출력으로의 매핑을 학습합니다. 이러한 학습을 통해 모델은 이전에 볼 수 없었던 새로운 데이터가 제시될 때 정확한 예측이나 결정을 내릴 수 있습니다.

트레이닝 데이터란 무엇인가요?

학습 데이터는 AI 모델을 위한 교과서이자 연습 문제라고 생각하세요. 학습 단계에서 예제로 사용할 수 있도록 특별히 형식이 지정된 신중하게 선별된 정보 집합입니다. 예를 들어 객체 감지와 같은 컴퓨터 비전(CV) 작업에서 학습 데이터는 이미지 또는 비디오 프레임( 입력 기능)과 해당 이미지 내의 객체의 위치(경계 상자) 및 클래스를 지정하는 주석(레이블)으로 구성됩니다. 이러한 라벨을 생성하는 것은 데이터 라벨링이라고 하는 중요한 단계입니다. 모델은 이 데이터를 반복적으로 처리하여 예측값을 실제 레이블과 비교하고 역전파그라데이션 하강과 같은 기술을 사용하여 파라미터를 조정하여 오류 또는 손실 함수를 최소화합니다.

학습 데이터의 중요성

AI 모델의 성능과 신뢰성은 학습 데이터의 품질, 양, 다양성과 직결됩니다. 높은 정확도를 달성하고 실제 시나리오에 잘 일반화되는 모델을 구축하려면 고품질의 대표 데이터가 필수적입니다(ML의 일반화). 반대로 훈련 데이터가 불충분하거나, 노이즈가 있거나, 편향된 데이터는 성능 저하, 과적합 (모델이 훈련 데이터에서는 잘 작동하지만 새로운 데이터에서는 제대로 작동하지 않는 경우) 또는 내재된 데이터 세트 편향으로 인한 불공정하고 차별적인 결과와 같은 심각한 문제를 일으킬 수 있습니다. 편향성을 해결하는 것은 AI 윤리의 핵심적인 측면입니다. 따라서 세심한 데이터 수집과 주석 달기 및 준비는 성공적인 AI 시스템을 개발하는 데 있어 매우 중요한 단계입니다.

실제 애플리케이션의 학습 데이터 예시

학습 데이터는 다양한 영역에 걸쳐 수많은 AI 애플리케이션의 원동력입니다. 다음은 두 가지 예입니다:

  1. 자율 주행 차량: 자율주행차는 인식 시스템을 위한 학습 데이터에 크게 의존합니다. 이 데이터에는 다른 차량, 보행자, 자전거, 신호등, 차선 표시와 같은 물체로 꼼꼼하게 레이블이 지정된 카메라, LiDAR 및 레이더 센서의 방대한 양의 영상이 포함됩니다. Waymo의 기술에 사용되는 것과 같은 모델은 복잡한 환경을 안전하게 탐색하는 방법을 학습하기 위해 Argoverse와 같은 데이터 세트를 학습합니다. 자세한 내용은 자동차 솔루션의 AI를 살펴보세요.
  2. 감정 분석: 자연어 처리(NLP)에서 감성 분석 모델은 텍스트 뒤에 숨겨진 감정 어조를 결정합니다. 학습 데이터는 '긍정', '부정', '중립' 등의 감정으로 레이블이 지정된 텍스트 샘플(예: 고객 리뷰, 소셜 미디어 게시물)로 구성됩니다(감정 분석 - 위키백과). 이를 통해 기업은 여론이나 고객 만족도를 자동으로 측정할 수 있습니다.

데이터 품질 및 준비

고품질의 학습 데이터를 확보하는 것이 가장 중요하며 몇 가지 주요 단계가 포함됩니다. 데이터 정리(Wikipedia)는 오류, 불일치, 누락된 값을 해결합니다. 데이터 전처리는 원시 데이터를 모델에 적합한 형식으로 변환합니다. 데이터 증강과 같은 기술은 기존 데이터의 수정된 복사본을 만들어 데이터 집합을 인위적으로 확장(예: 이미지 회전 또는 자르기)하여 모델 견고성을 개선하고 과적합을 줄이는 데 도움이 됩니다. 훈련 프로세스를 시작하기 전에 Ultralytics 데이터 세트 탐색기와 같은 도구로 탐색을 통해 데이터를 이해하는 것도 중요합니다.

학습 데이터와 유효성 검사 및 테스트 데이터 비교

일반적인 ML 프로젝트에서 데이터는 세 가지 다른 집합으로 나뉩니다:

  • 학습 데이터: 매개변수를 조정하여 모델을 학습시키는 데 직접 사용되는 가장 큰 부분입니다. 효과적인 학습을 위해서는 모델 학습을 위한 팁을 신중하게 고려해야 하는 경우가 많습니다.
  • 검증 데이터: 학습 중에 명시적으로 학습하지 않은 데이터에 대한 모델의 성능을 평가하기 위해 주기적으로 사용되는 별도의 하위 집합입니다. 이는 하이퍼파라미터 최적화와 같은 프로세스를 통해 하이퍼파라미터 (예: 학습 속도, 배치 크기)를 조정하는 데 도움이 되며 과적합에 대한 조기 경고를 제공합니다. 이 평가에는 유효성 검사 모드가 사용됩니다.
  • 테스트 데이터: 모델이 완전히 학습된 후에만 사용되는 훈련 및 검증 중에 보이지 않는 독립적인 데이터 세트입니다. 이 데이터는 모델의 일반화 능력과 실제 환경에서 예상되는 성능에 대한 편견 없는 최종 평가를 제공합니다. 배포하기 전에 엄격한 모델 테스트가 중요합니다.

이러한 데이터 집합을 엄격하게 분리하는 것은 신뢰할 수 있는 모델을 개발하고 그 기능을 정확하게 평가하는 데 필수적입니다. Ultralytics HUB와 같은 플랫폼은 모델 개발 수명 주기 전반에 걸쳐 이러한 데이터 세트를 효과적으로 관리할 수 있는 도구를 제공합니다. 다음과 같은 최신 모델 Ultralytics YOLO 와 같은 최신 모델은 광범위한 학습 데이터로 사용되는 COCO 또는 ImageNet과 같은 대규모 벤치마크 데이터 세트에서 사전 학습되는 경우가 많습니다.

모두 보기