용어집

합성 데이터

합성 데이터가 AI와 머신러닝을 어떻게 강화하는지 알아보세요. Ultralytics 위한 고품질 데이터셋을 생성하여 모델 정확도를 향상시키는 방법을 지금 바로 배워보세요.

합성 데이터는 실제 데이터의 통계적 특성, 패턴 및 구조적 특징을 모방하여 인위적으로 생성된 정보입니다. 인공지능(AI) 과 머신러닝(ML)과 같이 급속히 발전하는 분야에서, 이 데이터는 실제 데이터 수집이 비용이 많이 들거나 시간이 오래 걸리거나 개인정보 보호 규정으로 제한될 때 중요한 자원으로 활용됩니다. 실제 사건에서 수집된 유기적 데이터와 달리, 합성 데이터는 컴퓨터 시뮬레이션 및 고급 생성 모델과 같은 기법을 활용해 알고리즘적으로 생성됩니다. 가트너의산업 분석가들은 2030년까지 합성 데이터가 AI 모델에서 실제 데이터를 압도할 것이며, 이는 지능형 시스템의 구축 및 배포 방식을 근본적으로 변화시킬 것이라고 예측합니다.

인공지능 개발에서 합성 데이터의 역할

합성 데이터셋 활용의 주요 동인은 기존 데이터 수집 및 주석 작업의 본질적 한계를 극복하기 위함이다. 견고한 컴퓨터 비전(CV) 모델 훈련에는 종종 다양한 시나리오를 포함한 방대한 데이터셋이 필요하다. 희귀 질환 진단이나 위험한 극단적 교통사고 사례처럼 실제 데이터가 부족한 경우, 합성 데이터가 그 격차를 메운다.

이 데이터를 생성함으로써 개발자는 필요에 따라 완벽하게 라벨링된 훈련 데이터를 생성할 수 있습니다. 여기에는 객체 탐지를 위한 정밀한 바운딩 박스나 의미적 분할을 위한 픽셀 단위의 완벽한 마스크가 포함되어 수동 라벨링 과정에서 흔히 발생하는 인적 오류를 제거합니다. 또한, 엔지니어가 소수 집단이나 환경 조건을 의도적으로 균형 있게 반영한 데이터셋을 구성할 수 있도록 하여 AI 내 편향을 해결하고, 보다 공정한 모델 성능을 보장합니다.

실제 애플리케이션

합성 데이터는 데이터 프라이버시, 안전성 및 확장성이 가장 중요한 산업에 혁신을 가져오고 있습니다.

자율주행 시뮬레이션: 테스트 물리적 환경에서만 자율주행 차량을 테스트하는 것은 위험하고 지리적으로 제한적입니다. 기업들은 NVIDIA 같은 사진처럼 사실적인 시뮬레이터를 활용해 인식 시스템을 훈련시킵니다. 이러한 시뮬레이터는 수십억 마일의 가상 주행 데이터를 생성하며, AI를 위험한 기상 조건, 예측 불가능한 보행자 행동, 그리고 현실 세계에서 일관되게 포착하기 어려운 복잡한 도시 구조에 노출시킵니다.
의료 및 의료 영상: HIPAA 및 GDPR과 같은 환자 개인정보 보호법은 의료 기록 공유를 엄격히 규제합니다. 합성 데이터는 개인 식별 정보 없이 병리학적 표지를 유지하는 X선이나 MRI 스캔과 같은 현실적인 의료 영상 분석 데이터셋을 생성할 수 있게 합니다. 이를 통해 연구자들은 환자 기밀성을 침해하지 않으면서 종양 탐지모델을 협업적으로 훈련시킬 수 있습니다.

비전 AI를 위한 합성 데이터 생성

고품질 합성 데이터 생성에는 주로 두 가지 접근법이 사용됩니다: 시뮬레이션 엔진과 생성형 AI입니다. 유니티 엔진과 같은 시뮬레이션 엔진은 3D 그래픽을 활용해 물리 기반 조명과 텍스처로 장면을 렌더링합니다. 반면, 생성적 적대적 네트워크(GAN)및 확산 모델과 같은 생성형 모델은 실제 데이터의 분포를 학습하여 새로운 사실적인 예시를 합성합니다.

합성 데이터셋이 생성되면 고성능 모델 훈련에 활용할 수 있습니다. 다음 Python 합성 데이터로 훈련된 모델을 로드하는 방법을 보여줍니다. ultralytics 이미지에 대한 추론을 수행하기 위한 패키지.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")

# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify model performance
results[0].show()