용어집

데이터 증강

데이터 증강으로 머신러닝 모델을 강화하세요. 정확도를 높이고, 과적합을 줄이고, 견고성을 향상하는 기술을 알아보세요.

데이터 증강은 학습 데이터 세트의 크기와 다양성을 인위적으로 늘리는 데 사용되는 머신러닝(ML) 의 핵심 기술입니다. 이는 기존 데이터 샘플의 수정된, 그러나 사실적인 버전을 생성함으로써 달성됩니다. 주요 목표는 특히 컴퓨터 비전(CV)에서 AI 모델을 학습하는 동안 더 다양한 조건에 노출시켜 성능과 견고성을 개선하는 것입니다. 이렇게 하면 모델이 학습 데이터를 너무 잘 학습하지만 보이지 않는 새로운 데이터로 일반화하지 못하는 과적합을 방지하여 궁극적으로 모델 정확도를 높일 수 있습니다.

데이터 증강의 작동 방식

컴퓨터 비전에서 데이터 증강에는 이미지에 일련의 변환을 적용하는 작업이 포함됩니다. 이러한 변환은 모델이 배포된 후 발생할 수 있는 실제 변형을 시뮬레이션하도록 설계되었습니다. 일반적인 기법에는 다음이 포함됩니다:

  • 기하학적 변환: 이미지의 공간 방향을 변경합니다. 예를 들면 임의 회전, 크기 조정, 이동(이동), 자르기, 뒤집기(수평 또는 수직) 등이 있습니다. 이러한 변형은 모델이 물체의 위치와 방향에 불변하도록 학습합니다.
  • 색 공간 변환: 이미지의 색상 속성을 수정합니다. 밝기, 대비, 채도 및 색조를 조정하면 조명 조건의 변화에 더 탄력적으로 대응할 수 있습니다.
  • 고급 기법: 더 복잡한 방법에는 이미지 콘텐츠를 더 크게 변경하는 방법이 포함됩니다. 여기에는 가우시안 노이즈와 같은 무작위 노이즈를 추가하거나 흐림 효과를 적용하거나 기존 이미지 두 개를 선형적으로 결합하여 새로운 이미지를 만드는 믹스업, 이미지의 영역을 임의로 제거하는 컷아웃과 같은 방법을 사용하는 것이 포함됩니다. 이러한 방법에 대한 자세한 내용은 데이터 증강에 대한 궁극적인 가이드에서 확인할 수 있습니다.

PyTorch나 TensorFlow와 같은 많은 딥 러닝 프레임워크는 데이터 증강을 위한 도구를 제공합니다. Albumentations와 같은 전문 라이브러리는 방대한 고성능 증강 기법 모음을 제공하며, Ultralytics YOLO11과 같은 모델과 통합되어 학습 데이터를 원활하게 다양화할 수 있습니다.

실제 애플리케이션

데이터 증강은 보다 안정적인 AI 시스템을 구축하기 위해 여러 도메인에서 표준 관행으로 사용되고 있습니다.

  1. 의료 분야의 AI: 의료 이미지 분석에서는 환자 개인정보 보호 규정과 특정 질병의 희귀성으로 인해 데이터 세트가 작은 경우가 많습니다. 스캔에서 종양을 감지하는 모델을 학습시키기 위해 회전, 스케일링, 밝기 변화와 같은 증강 기법을 사용하면 보다 다양한 학습 예제를 생성할 수 있습니다. 이렇게 하면 영상 장비나 환자 위치의 변화에 관계없이 모델이 이상 징후를 정확하게 식별하여 진단 신뢰도를 높일 수 있습니다.
  2. 차량용 AI: 자율주행차를 위한 강력한 물체 감지 시스템을 개발하려면 수많은 주행 시나리오에서 얻은 데이터가 필요합니다. 가능한 모든 조건에 대한 데이터를 수집하는 대신 증강을 사용하면 다양한 날씨(예: 합성 비 또는 눈 추가), 조명(낮, 황혼, 밤), 장애물(예: 다른 차량에 부분적으로 가려진 보행자)을 시뮬레이션할 수 있습니다. 이를 통해 예측할 수 없는 실제 환경에서 차량의 인식 시스템을 더욱 신뢰할 수 있습니다.

다른 중요한 응용 분야로는 품질 관리를 위한 제조 분야의 AI와 다양한 현장 조건에서 작물 질병을 감지하는 농업 분야의 AI가 있습니다.

데이터 증강과 관련 개념 비교

데이터 증강을 다른 데이터 관련 기술과 구별하는 것이 중요합니다.

  • 합성 데이터: 두 가지 방법 모두 데이터 세트를 향상시키지만 작동 방식은 다릅니다. 데이터 증강은 기존의 실제 데이터를 수정합니다. 반면, 합성 데이터 생성은 시뮬레이션이나 GAN과 같은 생성 모델을 사용하여 완전히 새로운 인공 데이터를 처음부터 생성합니다. 증강은 관찰된 데이터의 분산을 확장하는 반면, 합성 데이터는 원래 데이터 세트에 없는 새로운 시나리오를 생성할 수 있으며, 이 개념은 컴퓨터 비전의 합성 데이터 개요에서 살펴봅니다.
  • 데이터 정리: 데이터 정리는 데이터 세트의 오류, 불일치, 부정확성을 식별하고 수정하는 데 중점을 둔 광범위한 데이터 전처리 파이프라인의 일부입니다. 데이터 품질을 개선하는 것이 목표입니다. 반면 데이터 증강은 데이터의 양과 다양성을 늘리는 것입니다. 깨끗한 데이터 세트는 보강을 적용하기 전에 가장 이상적인 출발점입니다.
  • 이전 학습: 이 기술은 이미지넷과 같은 대규모 벤치마크 데이터 세트에서 사전 학습된 모델을 사용한 다음 더 작은 작업별 데이터 세트에서 미세 조정하는 기법입니다. 데이터 증강은 종종 미세 조정 단계에서 성능을 더욱 개선하고 새로운 데이터에 대한 과적합을 방지하기 위해 사용됩니다.

Ultralytics HUB와 같은 플랫폼은 전체 모델 학습 프로세스를 간소화하여 사용자가 강력한 최첨단 비전 AI 모델을 구축할 수 있도록 데이터 증강을 핵심 단계로 통합합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨