용어집

합성 데이터

AI/ML을 위한 합성 데이터의 힘을 활용하세요! 데이터 부족, 개인정보 보호 문제, 비용을 극복하는 동시에 모델 학습과 혁신을 촉진하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

합성 데이터는 실제 이벤트나 측정값에서 직접 수집한 것이 아니라 실제 데이터의 통계적 특성을 모방하여 인위적으로 생성한 데이터를 말합니다. 인공 지능(AI)머신 러닝(ML) 분야에서 합성 데이터는 실제 학습 데이터의 중요한 대안 또는 보완 자료로 사용됩니다. 충분한 실제 데이터를 수집하는 것이 어렵고 비용이 많이 들거나 시간이 오래 걸리거나 개인정보 보호 문제가 발생할 때 특히 유용합니다. 인위적으로 생성된 이 정보는 모델을 훈련하고, 시스템을 테스트하고, 현실에서는 드물거나 위험할 수 있는 시나리오를 탐색하는 데 도움이 됩니다.

합성 데이터 생성 방법

원하는 복잡성과 충실도에 따라 다양한 기법을 사용하여 합성 데이터를 생성할 수 있습니다:

  • 통계 모델링: 실제 데이터의 특성과 일치하는 분포에서 샘플링과 같은 통계적 방법을 사용합니다.
  • 시뮬레이션: 미리 정의된 규칙과 상호 작용을 기반으로 데이터를 생성하기 위해 가상 환경 또는 모델을 만드는 것입니다. 이는 로봇 공학 및 자율 시스템과 같은 분야에서 흔히 사용됩니다. 사실적인 시뮬레이션을 생성하기 위해 NVIDIA Omniverse와 같은 플랫폼이 자주 사용됩니다.
  • 생성 모델: 생성적 적대 신경망(GAN) 또는 가변 자동 인코더(VAE)와 같은 딥러닝(DL) 기술을 사용하여 실제 데이터의 기본 패턴을 학습하고 유사한 새로운 데이터 포인트를 생성합니다. 최초의 GAN 논문에서 이를 위한 강력한 프레임워크를 소개했습니다.

AI 및 컴퓨터 비전에서의 중요성

합성 데이터는 AI 개발에 몇 가지 이점을 제공합니다:

  • 데이터 부족 문제 극복: 다음과 같은 복잡한 모델을 학습하는 데 필요한 대규모 데이터 세트를 제공합니다. Ultralytics YOLO 와 같은 복잡한 모델 학습에 필요한 대규모 데이터를 제공합니다.
  • 데이터 프라이버시 강화: 의료 및 금융과 같은 분야에서 중요한 민감한 실제 정보를 노출하지 않고도 모델 훈련을 할 수 있습니다. 이러한 기술에는 차등 개인정보 보호와 같은 개념이 포함되기도 합니다.
  • 엣지 케이스 커버: 현실 세계에서 포착하기 어려운 드물거나 중요한 시나리오(예: 자율주행차의 긴급 상황)에 대한 데이터를 생성할 수 있습니다.
  • 편향성 줄이기: 균형 잡힌 데이터 집합을 생성하여 데이터 집합 편향을 완화하는 데 잠재적으로 도움이 될 수 있지만, 새로운 편향성이 도입되지 않도록 주의해야 합니다.
  • 비용 및 시간 효율성: 합성 데이터 생성은 광범위한 실제 데이터를 수집하고 주석을 다는 것보다 더 빠르고 저렴할 수 있습니다.

컴퓨터 비전에서 합성 이미지는 다양한 조건(조명, 날씨, 시점)에서 물체 감지이미지 분할과 같은 작업을 위해 모델을 훈련하는 데 사용됩니다.

실제 애플리케이션

  1. 자율주행 차량: 자율주행차의 인지 시스템을 훈련하려면 다양한 주행 조건과 드문 이벤트(사고나 특이한 장애물 등)를 포함하는 방대한 양의 데이터가 필요합니다. 기업들은 Unity Simulation과 같은 시뮬레이터나 Waymo의 시뮬레이션 환경과 같은 독점 플랫폼을 사용하여 사실적인 합성 주행 데이터를 생성하고, 자동차 분야의 AI를 위한 모델 견고성과 안전성을 개선합니다.
  2. 헬스케어: 환자 개인정보 보호 규정(예: HIPAA)은 실제 의료 데이터의 사용을 제한합니다. 합성 데이터를 통해 연구자와 개발자는 환자의 기밀을 침해하지 않고 의료 이미지 분석 (예: 종양 탐지) 또는 전자 건강 기록 분석을 위한 AI 모델을 훈련할 수 있습니다. Synthea와 같은 프로젝트는 의료 분야의 AI 연구를 위해 합성 환자 기록을 생성합니다.

합성 데이터 대 데이터 증강

합성 데이터와 데이터 증강은 모두 학습 데이터의 다양성과 양을 늘리는 것을 목표로 하지만, 서로 다른 개념입니다:

  • 데이터 증강: 기존 실제 데이터에 변형(회전, 크기 조정, 자르기, 색상 이동 등)을 적용하여 약간 수정된 버전을 만드는 것입니다. 데이터 세트를 확장하지만 초기 실제 데이터 세트가 있어야 합니다. 이를 위해 문서화 같은 도구를 통합할 수 있습니다.
  • 합성 데이터: 실제 사례에서 시작하지 않고 모델이나 시뮬레이션을 사용하여 완전히 새로운 데이터 포인트를 처음부터 생성하는 경우가 많지만(일반적으로 모델은 처음에 실제 데이터로 학습됨).

합성 데이터는 전혀 볼 수 없는 시나리오의 예를 만들거나 개인정보 보호 제약으로 인해 실제 데이터를 완전히 사용할 수 없거나 사용할 수 없는 경우 데이터를 생성하는 등 증강이 할 수 없는 격차를 해소할 수 있습니다. 그러나 합성 데이터가 실제 세계의 복잡성을 정확하게 반영하도록 보장하는 것은 여전히 어려운 과제이며, 신중하게 관리하지 않으면 합성 분포에 과적합과 같은 문제가 발생할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 잠재적으로 합성 데이터를 포함한 다양한 데이터 세트에 대한 학습 모델을 지원합니다.

모두 보기