용어집

데이터 증강

데이터 보강으로 모델 성능을 향상하세요. 일반화를 강화하고, 과적합을 줄이고, 데이터 집합을 손쉽게 확장할 수 있습니다. 강력한 기술을 발견하세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 증강은 머신러닝에서 새로운 데이터를 수집하지 않고도 학습 데이터의 다양성을 높이기 위해 사용되는 기법입니다. 여기에는 기존 데이터 포인트의 수정된 버전을 생성하여 과적합을 줄이고 일반화를 강화함으로써 모델 성능을 개선하는 데 도움이 됩니다. 이러한 수정에는 이미지, 텍스트 또는 기타 형태의 데이터에 적용할 수 있는 회전, 크기 조정, 번역, 뒤집기 및 색상 변경과 같은 변형이 포함될 수 있습니다.

중요성 및 이점

데이터 증강은 강력한 머신러닝 모델을 개발하는 데 중요한 역할을 합니다. 도움이 됩니다:

  • 모델 일반화 향상: 데이터 증강은 다양한 버전의 학습 데이터에 모델을 노출시킴으로써 모델이 보다 일반화된 기능을 학습하고 보이지 않는 데이터에 대한 성능을 향상시키는 데 도움이 됩니다.
  • 과적합 감소: 다양한 데이터를 추가하면 모델이 학습 데이터를 암기하는 경향이 줄어들어 과적합을 최소화할 수 있습니다.
  • 제한된 데이터 확장: 원본 데이터가 제한된 애플리케이션의 경우, 증강은 추가적인 데이터 수집 노력 없이 데이터 세트 크기를 확장할 수 있는 효율적인 방법입니다.

데이터 증강 기술

데이터 증강에는 다음과 같은 여러 가지 기술을 사용할 수 있습니다:

  • 기하학적 변형: 회전, 뒤집기, 자르기, 크기 조정과 같은 조정은 콘텐츠를 유지하면서 이미지의 방향이나 크기를 변경합니다.
  • 색 공간 변환: 밝기, 대비, 채도, 색조를 수정하면 조명 조건에 관계없이 모델이 변하지 않도록 할 수 있습니다.
  • 무작위 지우기: 무작위로 섹션을 마스킹하여 이미지를 부분적으로 가려서 모델이 전체 이미지 컨텍스트에 집중할 수 있도록 유도합니다.
  • 믹스업: 데이터 세트에서 두 개의 이미지와 해당 레이블을 결합하여 모델이 결합된 기능을 통해 이미지 증강 기술을 학습하도록 유도합니다.

실제 AI/ML 분야에서의 애플리케이션

데이터 증강은 다음과 같은 다양한 분야에서 광범위하게 사용되고 있습니다:

  • 헬스케어: MRI 스캔을 통한 질병 진단과 같은 의료 영상 애플리케이션은 의료 분야에서 레이블이 지정된 데이터 AI의 제한된 가용성을 처리함으로써 데이터 증강의 이점을 크게 누릴 수 있습니다.
  • 자율주행 자동차: 자율주행차는 도로에서 마주치는 무수히 많은 상황을 처리하기 위해 다양한 학습 데이터가 필요합니다. 데이터 증강은 자율 주행에서 다양한 조명 조건과 시점 AI를 시뮬레이션하는 데 도움이 됩니다.

데이터 증강과 관련 개념의 구분

  • 데이터 증강과 합성 데이터 생성 비교: 데이터 증강은 기존 데이터에 변환을 적용하여 새로운 데이터 인스턴스를 생성하는 반면, 합성 데이터 생성은 AI에서 GAN(생성적 적대 신경망)을 발견하는 것과 같은 모델을 사용하여 완전히 새로운 데이터 인스턴스를 생성합니다.
  • 데이터 증강과 전이 학습 비교: 전이 학습은 사전 학습된 모델을 활용하여 새로운 작업에 사전 지식을 활용하는 데 중점을 두는 반면, 데이터 증강은 전이 학습에 대해 학습하는 훈련 데이터 자체의 다양성을 강화합니다.

도구 및 기술

다음과 같이 널리 사용되는 라이브러리 및 프레임워크는 AI/ML 프로젝트에서 데이터 보강을 지원합니다:

데이터 증강 구현

데이터 증강을 구현하는 데는 Ultralytics HUB와 같은 플랫폼을 사용하면 집중적인 수동 코딩 작업 없이 풍부한 데이터 세트를 생성할 수 있는 직관적인 도구를 통해 프로세스를 간소화할 수 있습니다.

결론적으로, 데이터 증강은 최신 AI/ML 워크플로우에서 필수적인 기술로, 보다 정확하고 효과적인 모델을 만드는 데 기여합니다. 특히 데이터가 부족하거나 수집 비용이 많이 드는 시나리오에서 매우 중요하며, 다양한 분야에 걸쳐 AI 솔루션을 개발하여 신뢰성과 성능을 향상시킬 수 있습니다.

모두 보기