AI/ML을 위한 합성 데이터의 힘을 활용하세요! 데이터 부족, 개인정보 보호 문제, 비용을 극복하는 동시에 모델 학습과 혁신을 촉진하세요.
합성 데이터는 실제 이벤트나 측정값에서 직접 수집한 것이 아니라 실제 데이터의 통계적 특성을 모방하여 인위적으로 생성한 정보를 말합니다. 인공 지능(AI) 및 머신 러닝(ML) 분야에서 합성 데이터는 실제 학습 데이터의 중요한 대안 또는 보완 자료로 사용됩니다. 충분한 실제 데이터를 수집하는 것이 어렵거나, 비용이 많이 들고, 시간이 많이 걸리거나(데이터 수집 및 주석 가이드), 데이터 개인정보 보호 문제가 제기될 때 특히 유용합니다. 이렇게 인위적으로 생성된 정보는 다음과 같은 모델을 학습시키는 데 도움이 됩니다. Ultralytics YOLO와 같은 모델을 훈련하고, 시스템을 테스트하고, 현실에서 드물거나 위험할 수 있는 시나리오를 탐색하여 궁극적으로 혁신과 모델 성능을 향상시키는 데 도움이 됩니다.
합성 데이터 생성에는 필요한 복잡성과 충실도에 따라 다양한 기법이 사용됩니다. 몇 가지 일반적인 접근 방식은 다음과 같습니다:
합성 데이터는 AI 개발과 컴퓨터 비전에 몇 가지 중요한 이점을 제공합니다:
컴퓨터 비전에서 합성 이미지는 사용 가능한 데이터 세트에서 찾기 어려운 다양한 조건(예: 다양한 조명, 날씨, 시점)에서 물체 감지, 이미지 분할, 포즈 추정과 같은 작업을 위한 모델을 훈련하는 데 자주 사용됩니다.
합성 데이터는 다양한 산업 분야에서 활용되고 있습니다:
다른 애플리케이션으로는 금융 모델링(금융 분야의 AI), 소매업(더 스마트한 소매업을 위한 AI), 로봇 공학 교육 등이 있습니다.
합성 데이터와 데이터 증강은 모두 데이터 집합을 향상시키는 것을 목표로 하지만, 서로 다른 개념입니다:
본질적으로 데이터 증강은 기존 데이터의 변수를 확장하는 반면, 합성 데이터는 완전히 새로운 데이터 포인트와 시나리오를 생성할 수 있어 Ultralytics HUB와 같은 플랫폼을 통해 관리되는 AI 모델 학습에서 실제 데이터를 보완하거나 심지어 대체할 수 있는 강력한 방법을 제공합니다.