용어집

데이터 증강

데이터 증강으로 모델 정확도를 높이세요! 데이터 세트를 확장하고, 과적합을 방지하고, 컴퓨터 비전 성능을 향상하는 기술을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 증강은 머신러닝에서 기존 데이터의 수정된 버전을 생성하여 학습 데이터 세트의 크기를 인위적으로 늘리는 데 사용되는 기술입니다. 이 기술은 특히 원본 데이터 세트가 제한되어 있는 경우 머신러닝 모델의 성능과 일반화 능력을 향상시키는 데 도움이 됩니다. 데이터 증강은 모델을 더 다양한 데이터 포인트에 노출시킴으로써 모델이 학습 데이터에 지나치게 특화되어 보이지 않는 데이터에서 성능이 저하되는 과적합을 방지하는 데 도움이 됩니다.

데이터 증강의 관련성 및 중요성

데이터 증강은 대규모 데이터 세트를 수집하고 라벨을 붙이는 데 많은 비용과 시간이 소요되는 컴퓨터 비전 작업에서 특히 유용합니다. 예를 들어, 객체 감지 작업에서 제한된 데이터 세트로 학습된 모델은 조명 조건, 방향 또는 배율이 다른 객체를 인식하는 데 어려움을 겪을 수 있습니다. 회전, 뒤집기, 자르기, 색상 조정과 같은 증강 기능을 적용하면 모델이 더 광범위한 시나리오에 노출되어 실제 애플리케이션에서 더 강력하고 정확하게 인식할 수 있습니다. 데이터 증강은 데이터 세트의 특정 클래스가 다른 클래스보다 샘플 수가 현저히 적은 클래스 불균형 문제를 해결하는 데도 사용할 수 있습니다. 과소 대표되는 클래스의 데이터를 선택적으로 보강함으로써 모델은 보다 균형 잡힌 데이터 표현을 학습할 수 있습니다. 컴퓨터 비전 프로젝트를 위한 데이터 수집 및 주석에 대해 자세히 알아보세요.

일반적인 데이터 증강 기술

컴퓨터 비전에서 데이터 증강에는 다음과 같은 몇 가지 기술이 일반적으로 사용됩니다:

  • 기하학적 변환: 여기에는 다음과 같은 이미지의 공간 속성을 변경하는 작업이 포함됩니다:
    • 회전: 회전: 이미지를 특정 각도로 회전합니다.
    • 뒤집기: 이미지를 가로 또는 세로로 뒤집기.
    • 크기 조정: 이미지 확대 또는 축소.
    • 자르기: 이미지의 일부 추출하기.
    • 번역: 이미지를 가로 또는 세로로 이동합니다.
  • 색 공간 변환: 여기에는 다음과 같은 이미지의 색상 속성을 수정하는 작업이 포함됩니다:
    • 밝기 조정: 이미지의 전체 밝기를 높이거나 낮추는 기능입니다.
    • 대비 조정: 이미지의 가장 어두운 부분과 가장 밝은 부분의 차이를 높이거나 낮추는 기능입니다.
    • 채도 조정: 이미지의 색상 강도를 높이거나 낮추는 기능입니다.
    • 색조 조정: 색상 스펙트럼을 따라 이미지의 색상을 이동합니다.
  • 노이즈 주입: 이미지에 무작위 노이즈를 추가하여 이미지 품질 변화에 대한 모델의 복원력을 높일 수 있습니다.
  • 커널 필터: 이미지에 흐림 또는 선명하게 하기 등의 필터를 적용하여 다양한 이미지 캡처 조건을 시뮬레이션할 수 있습니다.

실제 애플리케이션에서의 데이터 증강

데이터 증강은 다양한 실제 AI/ML 애플리케이션에서 널리 사용되고 있습니다. 다음은 두 가지 구체적인 예시입니다:

  1. 의료 이미지 분석: 의료 영상에서는 개인정보 보호 문제와 전문가의 주석이 필요하기 때문에 라벨이 지정된 대규모 데이터 세트를 확보하는 것이 어려울 수 있습니다. 데이터 증강 기술은 의료 이미지 데이터 세트의 크기와 다양성을 향상시켜 종양 탐지, 병변 분할, 질병 분류와 같은 작업의 모델 성능을 개선하는 데 사용됩니다. 예를 들어, 뇌종양 감지 데이터 세트에서 기존 MRI 또는 CT 스캔에 회전, 뒤집기, 작은 변환을 적용하면 모델이 종양의 방향이나 뇌 내 위치에 관계없이 종양을 식별하는 방법을 학습하는 데 도움이 될 수 있습니다. 자세한 내용은 의료 분야의 AI를 살펴보세요.
  2. 자율 주행: 자율 주행 자동차는 보행자, 차량, 교통 표지판을 감지하는 등 주변 환경을 인식하기 위해 컴퓨터 비전 모델에 크게 의존합니다. 데이터 증강은 이러한 모델을 다양한 실제 조건에 견고하게 훈련시키는 데 중요한 역할을 합니다. 예를 들어, 다양한 조명 조건, 날씨 조건(예: 비, 눈, 안개), 장애물로 훈련 이미지를 보강함으로써 모델은 까다로운 시나리오에서 물체를 정확하게 감지하는 방법을 학습하여 자율 주행 시스템의 안전성과 신뢰성을 향상시킬 수 있습니다. 자율 주행 차량의 AI에 대해 자세히 알아보세요.

데이터 증강 및 관련 개념

데이터 증강은 머신 러닝의 다른 중요한 개념과 밀접한 관련이 있습니다:

  • 과적합: 데이터 증강은 모델이 학습 데이터에서는 잘 작동하지만 보이지 않는 데이터에서는 제대로 작동하지 않는 과적합을 완화하는 강력한 기술입니다. 증강은 훈련 세트의 다양성을 증가시킴으로써 모델이 보이지 않는 새로운 예제에 대해 더 잘 일반화할 수 있도록 도와줍니다. 이는 모델이 너무 단순하여 데이터의 기본 패턴을 포착하지 못하는 과소적합과 대조됩니다.
  • 정규화: 데이터 증강은 모델이 지나치게 복잡해지거나 학습 데이터에 너무 밀착되는 것을 방지하는 제약 조건을 도입하기 때문에 정규화의 한 형태로 볼 수 있습니다. 다른 정규화 기법으로는 가중치의 크기에 따라 모델의 손실 함수에 페널티를 추가하는 L1 및 L2 정규화가 있습니다.
  • 전이 학습: 데이터 증강은 대규모 데이터 세트(예: 이미지넷)에서 사전 학습된 모델을 소규모의 작업별 데이터 세트에서 미세 조정하는 전이 학습과 결합할 때 특히 효과적일 수 있습니다. 더 작은 데이터 세트를 보강하면 모델이 새로운 작업에 더 잘 적응하고 제한된 데이터에 대한 과적합을 방지하는 데 도움이 될 수 있습니다. 주석이 달린 데이터 사전 처리에 대해 자세히 알아보세요.

요약하자면, 데이터 증강은 특히 컴퓨터 비전에서 머신러닝 모델의 성능과 견고성을 향상시키는 데 중요한 기술입니다. 데이터 증강은 기존 데이터의 수정된 버전으로 학습 데이터 세트를 인위적으로 확장함으로써 모델이 보이지 않는 데이터를 더 잘 일반화하고, 과적합을 방지하며, 클래스 불균형과 같은 문제를 해결하는 데 도움을 줍니다. Ultralytics YOLO 모델은 데이터 증강을 활용하여 다양한 컴퓨터 비전 작업에서 성능을 향상시킵니다. Albumentations ( Ultralytics )와의 통합은 데이터 세트에 광범위한 증강을 적용할 수 있는 강력하고 유연한 방법을 제공합니다. Ultralytics 이 다른 도구 및 플랫폼과 어떻게 작동하는지 자세히 알아보려면 통합 페이지를 살펴보세요.

모두 보기