합성 데이터는 실제 이벤트나 측정값에서 직접 수집한 것이 아니라 실제 데이터의 통계적 특성을 모방하여 인위적으로 생성한 데이터를 말합니다. 인공 지능(AI) 및 머신 러닝(ML) 분야에서 합성 데이터는 실제 학습 데이터의 중요한 대안 또는 보완 자료로 사용됩니다. 충분한 실제 데이터를 수집하는 것이 어렵고 비용이 많이 들거나 시간이 오래 걸리거나 개인정보 보호 문제가 발생할 때 특히 유용합니다. 인위적으로 생성된 이 정보는 모델을 훈련하고, 시스템을 테스트하고, 현실에서는 드물거나 위험할 수 있는 시나리오를 탐색하는 데 도움이 됩니다.
합성 데이터 생성 방법
원하는 복잡성과 충실도에 따라 다양한 기법을 사용하여 합성 데이터를 생성할 수 있습니다:
- 통계 모델링: 실제 데이터의 특성과 일치하는 분포에서 샘플링과 같은 통계적 방법을 사용합니다.
- 시뮬레이션: 미리 정의된 규칙과 상호 작용을 기반으로 데이터를 생성하기 위해 가상 환경 또는 모델을 만드는 것입니다. 이는 로봇 공학 및 자율 시스템과 같은 분야에서 흔히 사용됩니다. 사실적인 시뮬레이션을 생성하기 위해 NVIDIA Omniverse와 같은 플랫폼이 자주 사용됩니다.
- 생성 모델: 생성적 적대 신경망(GAN) 또는 가변 자동 인코더(VAE)와 같은 딥러닝(DL) 기술을 사용하여 실제 데이터의 기본 패턴을 학습하고 유사한 새로운 데이터 포인트를 생성합니다. 최초의 GAN 논문에서 이를 위한 강력한 프레임워크를 소개했습니다.
AI 및 컴퓨터 비전에서의 중요성
합성 데이터는 AI 개발에 몇 가지 이점을 제공합니다:
- 데이터 부족 문제 극복: 다음과 같은 복잡한 모델을 학습하는 데 필요한 대규모 데이터 세트를 제공합니다. Ultralytics YOLO 와 같은 복잡한 모델 학습에 필요한 대규모 데이터를 제공합니다.
- 데이터 프라이버시 강화: 의료 및 금융과 같은 분야에서 중요한 민감한 실제 정보를 노출하지 않고도 모델 훈련을 할 수 있습니다. 이러한 기술에는 차등 개인정보 보호와 같은 개념이 포함되기도 합니다.
- 엣지 케이스 커버: 현실 세계에서 포착하기 어려운 드물거나 중요한 시나리오(예: 자율주행차의 긴급 상황)에 대한 데이터를 생성할 수 있습니다.
- 편향성 줄이기: 균형 잡힌 데이터 집합을 생성하여 데이터 집합 편향을 완화하는 데 잠재적으로 도움이 될 수 있지만, 새로운 편향성이 도입되지 않도록 주의해야 합니다.
- 비용 및 시간 효율성: 합성 데이터 생성은 광범위한 실제 데이터를 수집하고 주석을 다는 것보다 더 빠르고 저렴할 수 있습니다.
컴퓨터 비전에서 합성 이미지는 다양한 조건(조명, 날씨, 시점)에서 물체 감지 및 이미지 분할과 같은 작업을 위해 모델을 훈련하는 데 사용됩니다.
합성 데이터 대 데이터 증강
합성 데이터와 데이터 증강은 모두 학습 데이터의 다양성과 양을 늘리는 것을 목표로 하지만, 서로 다른 개념입니다:
- 데이터 증강: 기존 실제 데이터에 변형(회전, 크기 조정, 자르기, 색상 이동 등)을 적용하여 약간 수정된 버전을 만드는 것입니다. 데이터 세트를 확장하지만 초기 실제 데이터 세트가 있어야 합니다. 이를 위해 문서화 같은 도구를 통합할 수 있습니다.
- 합성 데이터: 실제 사례에서 시작하지 않고 모델이나 시뮬레이션을 사용하여 완전히 새로운 데이터 포인트를 처음부터 생성하는 경우가 많지만(일반적으로 모델은 처음에 실제 데이터로 학습됨).
합성 데이터는 전혀 볼 수 없는 시나리오의 예를 만들거나 개인정보 보호 제약으로 인해 실제 데이터를 완전히 사용할 수 없거나 사용할 수 없는 경우 데이터를 생성하는 등 증강이 할 수 없는 격차를 해소할 수 있습니다. 그러나 합성 데이터가 실제 세계의 복잡성을 정확하게 반영하도록 보장하는 것은 여전히 어려운 과제이며, 신중하게 관리하지 않으면 합성 분포에 과적합과 같은 문제가 발생할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 잠재적으로 합성 데이터를 포함한 다양한 데이터 세트에 대한 학습 모델을 지원합니다.