Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Синтетические данные

Узнайте, как синтетические данные способствуют развитию искусственного интеллекта и машинного обучения. Узнайте, как создавать высококачественные наборы данных для Ultralytics , чтобы уже сегодня повысить точность модели.

Синтетические данные — это искусственно сгенерированная информация, которая имитирует статистические свойства, закономерности и структурные характеристики реальных данных. В быстро развивающихся областях искусственного интеллекта (ИИ) и машинного обучения (МО) эти данные служат важным ресурсом, когда сбор аутентичных данных является дорогостоящим, трудоемким или ограниченным правилами конфиденциальности. В отличие от органических данных, собираемых из реальных событий, синтетические данные создаются алгоритмически с использованием таких методов, как компьютерное моделирование и передовые генеративные модели. К 2030 году отраслевые аналитики Gartner прогнозируют, что синтетические данные затмят реальные данные в моделях ИИ, что коренным образом изменит способы построения и развертывания интеллектуальных систем.

Роль синтетических данных в развитии искусственного интеллекта

Основной причиной использования синтетических наборов данных является преодоление ограничений, присущих традиционному сбору и аннотированию данных. Для обучения надежных моделей компьютерного зрения (CV) часто требуются огромные наборы данных, содержащие разнообразные сценарии. Когда реальных данных мало — например, при диагностике редких заболеваний или опасных крайних случаях дорожно-транспортных происшествий — синтетические данные помогают преодолеть этот пробел.

Генерация этих данных позволяет разработчикам создавать идеально маркированные учебные данные по запросу. Сюда входят точные ограничительные рамки для обнаружения объектов или маски с идеальной точностью до пикселя для семантической сегментации, что исключает человеческие ошибки, часто встречающиеся в процессах ручной маркировки. Кроме того, это решает проблему предвзятости в ИИ, позволяя инженерам намеренно сбалансировать наборы данных с недопредставленными группами или условиями окружающей среды, обеспечивая более справедливую работу модели.

Применение в реальном мире

Синтетические данные революционизируют отрасли, в которых конфиденциальность, безопасность и масштабируемость данных имеют первостепенное значение.

  • Симуляции автономного вождения: тестирование автономных транспортных средств исключительно в физическом мире сопряжено с риском и ограничено географически. Компании используют фотореалистичные симуляторы, такие как NVIDIA , для обучения своих систем восприятия. Эти симуляторы генерируют миллиарды виртуальных миль, подвергая ИИ воздействию опасных погодных условий, непредсказуемого поведения пешеходов и сложных городских планировок, которые трудно последовательно зафиксировать в реальном мире.
  • Здравоохранение и медицинская визуализация: Законы о конфиденциальности пациентов, такие как HIPAA и GDPR, строго регулируют обмен медицинскими записями. Синтетические данные позволяют создавать реалистичные наборы данных для анализа медицинских изображений, таких как рентгеновские снимки или МРТ-сканы, которые сохраняют признаки патологии, но не содержат никакой информации, позволяющей идентифицировать личность. Это позволяет исследователям совместно обучать модели обнаружения опухолей без ущерба для конфиденциальности пациентов.

Генерация синтетических данных для искусственного интеллекта в области зрения

Создание высококачественных синтетических данных часто предполагает использование двух основных подходов: симуляционных движков и генеративного ИИ. Симуляционные движки, такие как Unity Engine, используют 3D-графику для рендеринга сцен с физически обоснованным освещением и текстурами. В качестве альтернативы, генеративные модели, такие как генеративно-состязательные сети (GAN) и диффузионные модели, изучают распределение реальных данных для синтеза новых фотореалистичных примеров.

После генерации синтетического набора данных его можно использовать для обучения высокопроизводительных моделей. В следующем Python показано, как загрузить модель, потенциально обученную на синтетических данных, с помощью ultralytics пакет для выполнения инференции на изображении.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")

# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify model performance
results[0].show()

Синтетические данные vs. Аугментация данных

Полезно отличать синтетические данные от увеличения объема данных, поскольку обе технологии направлены на расширение наборов данных, но функционируют по-разному.

  • Увеличение данных включает в себя применение преобразований, таких как переворот, поворот, кадрирование или корректировка цвета, к существующим реальным изображениям для создания небольших вариаций. Оно основано на исходном источнике данных .
  • Синтетические данные предполагают создание совершенно новых экземпляров данных с нуля с помощью алгоритмов или симуляций. Для каждого результата не требуется оригинальное изображение, что позволяет генерировать сценарии, которые никогда не были запечатлены камерой.

Современные рабочие процессы на Ultralytics часто сочетают оба подхода: использование синтетических данных для заполнения пробелов в наборе данных и применение аугментации данных во время обучения для максимизации надежности моделей, таких как YOLO26.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас