AI에서 학습 데이터의 중요성에 대해 알아보세요. 양질의 데이터 세트가 실제 작업을 위한 정확하고 강력한 머신 러닝 모델을 어떻게 강화하는지 알아보세요.
인공지능(AI) 및 머신러닝(ML) 분야에서 학습 데이터는 분류나 예측과 같은 특정 작업을 수행하는 방법을 모델에 가르치는 데 사용되는 기본 데이터 세트입니다. 학습 데이터는 대규모 예제 모음으로 구성되며, 각 예제는 일반적으로 입력과 그에 해당하는 원하는 출력 또는 레이블을 짝을 이룹니다. 지도 학습과 같은 프로세스를 통해 모델은 이 데이터를 분석하고, 기본 패턴과 관계를 식별하고, 내부 매개변수(모델 가중치)를 조정하여 입력에서 출력으로의 매핑을 학습합니다. 이러한 학습을 통해 모델은 이전에 볼 수 없었던 새로운 데이터가 제시될 때 정확한 예측이나 결정을 내릴 수 있습니다.
학습 데이터는 AI 모델을 위한 교과서이자 연습 문제라고 생각하세요. 학습 단계에서 예제로 사용할 수 있도록 특별히 형식이 지정된 신중하게 선별된 정보 집합입니다. 예를 들어 객체 감지와 같은 컴퓨터 비전(CV) 작업에서 학습 데이터는 이미지 또는 비디오 프레임( 입력 기능)과 해당 이미지 내의 객체의 위치(경계 상자) 및 클래스를 지정하는 주석(레이블)으로 구성됩니다. 이러한 라벨을 생성하는 것은 데이터 라벨링이라고 하는 중요한 단계입니다. 모델은 이 데이터를 반복적으로 처리하여 예측값을 실제 레이블과 비교하고 역전파 및 그라데이션 하강과 같은 기술을 사용하여 파라미터를 조정하여 오류 또는 손실 함수를 최소화합니다.
AI 모델의 성능과 신뢰성은 학습 데이터의 품질, 양, 다양성과 직결됩니다. 높은 정확도를 달성하고 실제 시나리오에 잘 일반화되는 모델을 구축하려면 고품질의 대표 데이터가 필수적입니다(ML의 일반화). 반대로 훈련 데이터가 불충분하거나, 노이즈가 있거나, 편향된 데이터는 성능 저하, 과적합 (모델이 훈련 데이터에서는 잘 작동하지만 새로운 데이터에서는 제대로 작동하지 않는 경우) 또는 내재된 데이터 세트 편향으로 인한 불공정하고 차별적인 결과와 같은 심각한 문제를 일으킬 수 있습니다. 편향성을 해결하는 것은 AI 윤리의 핵심적인 측면입니다. 따라서 세심한 데이터 수집과 주석 달기 및 준비는 성공적인 AI 시스템을 개발하는 데 있어 매우 중요한 단계입니다.
학습 데이터는 다양한 영역에 걸쳐 수많은 AI 애플리케이션의 원동력입니다. 다음은 두 가지 예입니다:
고품질의 학습 데이터를 확보하는 것이 가장 중요하며 몇 가지 주요 단계가 포함됩니다. 데이터 정리(Wikipedia)는 오류, 불일치, 누락된 값을 해결합니다. 데이터 전처리는 원시 데이터를 모델에 적합한 형식으로 변환합니다. 데이터 증강과 같은 기술은 기존 데이터의 수정된 복사본을 만들어 데이터 집합을 인위적으로 확장(예: 이미지 회전 또는 자르기)하여 모델 견고성을 개선하고 과적합을 줄이는 데 도움이 됩니다. 훈련 프로세스를 시작하기 전에 Ultralytics 데이터 세트 탐색기와 같은 도구로 탐색을 통해 데이터를 이해하는 것도 중요합니다.
일반적인 ML 프로젝트에서 데이터는 세 가지 다른 집합으로 나뉩니다:
이러한 데이터 집합을 엄격하게 분리하는 것은 신뢰할 수 있는 모델을 개발하고 그 기능을 정확하게 평가하는 데 필수적입니다. Ultralytics HUB와 같은 플랫폼은 모델 개발 수명 주기 전반에 걸쳐 이러한 데이터 세트를 효과적으로 관리할 수 있는 도구를 제공합니다. 다음과 같은 최신 모델 Ultralytics YOLO 와 같은 최신 모델은 광범위한 학습 데이터로 사용되는 COCO 또는 ImageNet과 같은 대규모 벤치마크 데이터 세트에서 사전 학습되는 경우가 많습니다.