용어집

학습 데이터

머신러닝에서 학습 데이터의 중요성과 그 핵심 요소, 그리고 Ultralytics YOLO 에서 최첨단 AI 모델에 데이터를 활용하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

학습 데이터는 지도 머신 러닝의 초석으로, 모델이 정확한 예측을 학습할 수 있는 토대를 제공합니다. 학습 데이터는 입력 예제 집합으로 구성되며, 각 예제는 "기준 데이터" 또는 "레이블"이라고 하는 해당 원하는 출력과 쌍을 이룹니다. 머신러닝 알고리즘은 이 레이블이 지정된 데이터를 분석하여 보이지 않는 새로운 데이터를 일반화하고 예측할 수 있는 패턴과 관계를 파악합니다. 학습 데이터의 품질, 크기, 대표성은 학습된 모델의 성능과 신뢰성에 큰 영향을 미칩니다.

학습 데이터의 중요성

강력하고 정확한 머신러닝 모델을 구축하려면 고품질의 학습 데이터가 필수적입니다. 데이터는 모델이 직면하게 될 실제 시나리오를 대표해야 하며, 다양한 변형과 엣지 케이스를 포함해야 합니다. 다양하고 포괄적인 데이터 세트는 모델이 데이터의 기본 패턴과 관계를 학습하는 데 도움이 되며, 보이지 않는 데이터에 대한 일반화와 성능 향상으로 이어집니다. 학습 데이터가 불충분하거나 편향된 경우 실제 애플리케이션에서 모델이 제대로 작동하지 않거나 불공정하거나 차별적인 행동을 보일 수 있습니다.

학습 데이터의 주요 고려 사항

학습 데이터의 효과에는 여러 가지 요인이 영향을 미칩니다:

  • 데이터 품질: 정확하고 일관되며 레이블이 잘 지정된 데이터는 매우 중요합니다. 데이터에 오류나 불일치가 있으면 모델이 잘못된 패턴을 학습하게 될 수 있습니다.
  • 데이터 양: 일반적으로 데이터가 많을수록 모델이 더 복잡한 패턴을 학습할 수 있기 때문에 모델 성능이 향상됩니다. 하지만 데이터의 양을 위해 데이터의 질을 희생해서는 안 됩니다.
  • 데이터 관련성: 학습 데이터는 모델이 학습 중인 특정 작업과 관련성이 있어야 합니다. 관련 없는 데이터를 포함하면 노이즈가 발생하여 모델이 원하는 패턴을 학습하는 데 방해가 될 수 있습니다.
  • 데이터 다양성: 다양한 시나리오, 변형 및 엣지 케이스를 포괄하는 다양한 데이터 세트는 보이지 않는 새로운 데이터에 대해 모델을 더 잘 일반화하는 데 도움이 됩니다.
  • 데이터 균형: 분류 작업에서는 학습 데이터에서 각 클래스를 균형 있게 표현하는 것이 중요합니다. 데이터가 불균형하면 대표성이 낮은 클래스에서 성능이 떨어지는 편향된 모델로 이어질 수 있습니다. 데이터 불균형 해결에 대한 자세한 내용은 Ultralytics 블로그에서 확인하세요.

학습 데이터와 관련 용어

학습 데이터와 머신 러닝에 사용되는 다른 유형의 데이터를 구분하는 것이 중요합니다:

  • 검증 데이터: 유효성 검사 데이터는 모델의 하이퍼파라미터를 미세 조정하고 학습 중에 성능을 평가하는 데 사용됩니다. 보이지 않는 데이터에 대한 모델 성능에 대한 편향되지 않은 추정치를 제공하여 과적합을 방지하는 데 도움이 됩니다.
  • 테스트 데이터: 테스트 데이터는 학습된 모델의 최종 성능을 평가하는 데 사용됩니다. 학습 및 검증 데이터와는 완전히 독립적이며, 보이지 않는 새로운 데이터에 대한 모델의 성능을 편향 없이 추정할 수 있습니다.

훈련 데이터의 실제 활용

학습 데이터는 다양한 산업 분야의 광범위한 실제 애플리케이션에서 사용됩니다. 다음은 두 가지 구체적인 예시입니다:

자율 주행 차량

자율 주행 자동차는 복잡한 실제 환경에서 탐색하고 의사 결정을 내리는 방법을 학습하기 위해 학습 데이터에 크게 의존합니다. 이러한 시스템의 학습 데이터에는 일반적으로 카메라, 라이더, 레이더의 이미지 및 센서 데이터와 함께 보행자, 차량, 교통 표지판과 같은 물체의 존재와 위치를 나타내는 해당 레이블이 포함됩니다. 자율주행 모델은 방대한 양의 다양하고 대표적인 데이터를 학습함으로써 주변 환경을 정확하게 인식하고 안전한 주행 결정을 내리는 방법을 배울 수 있습니다. 자율주행차에서 비전 AI의 역할에 대해 자세히 알아보세요.

의료 진단

학습 데이터는 의료 진단을 위한 AI 모델을 개발하는 데 중요한 역할을 합니다. 예를 들어 의료 영상 분야에서는 엑스레이, CT 스캔 또는 MRI 이미지에서 암과 같은 질병을 감지하도록 모델을 학습시킬 수 있습니다. 이러한 모델의 학습 데이터는 전문 방사선 전문의가 종양이나 기타 이상 소견의 존재와 위치를 나타내는 라벨을 붙인 의료 이미지로 구성됩니다. AI 모델은 라벨이 지정된 의료 이미지의 대규모 데이터 세트를 통해 학습함으로써 의사가 더 빠르고 정확하게 진단할 수 있도록 지원합니다. 의료 분야에서의 AI 활용에 대해 자세히 알아보세요.

교육 데이터 Ultralytics YOLO

Ultralytics YOLO (You Only Look Once) 모델은 고품질 학습 데이터에 의존하여 탁월한 성능을 달성하는 최첨단 객체 감지 모델입니다. 이 모델은 각 이미지 내의 객체의 위치와 클래스를 나타내는 해당 바운딩 박스 주석이 포함된 대규모 이미지 데이터 세트에 대해 학습됩니다. 탐지, 세분화 등을 위해 Ultralytics 에서 지원하는 다양한 모델을 살펴보세요(YOLOv3~YOLOv10, NAS, SAM, RT-DETR ).

Ultralytics 는 데이터 세트 관리 및 사용자 지정 모델 학습을 위한 사용자 친화적인 플랫폼인 Ultralytics HUB를 제공합니다. 사용자는 직접 데이터 세트를 업로드하거나 COCO와 같은 다양한 기존 데이터 세트 중에서 선택하여 모델을 학습시킬 수 있습니다. 사용자 지정 데이터 세트 훈련에 대한 자세한 내용은 Google Colab에서 Ultralytics YOLO 참조하세요. 이 플랫폼은 데이터 시각화, 모델 평가 및 배포를 위한 도구도 제공하므로 고성능 객체 감지 모델을 쉽게 구축하고 배포할 수 있습니다.

Ultralytics 문서에서는 데이터 세트 형식, 모델 학습성능 지표에 대한 광범위한 리소스를 제공하여 사용자가 특정 애플리케이션에 대한 학습 데이터를 효과적으로 활용할 수 있도록 지원합니다.

모두 보기