Узнайте, как синтетические данные способствуют развитию искусственного интеллекта и машинного обучения. Узнайте, как создавать высококачественные наборы данных для Ultralytics , чтобы уже сегодня повысить точность модели.
Синтетические данные — это искусственно сгенерированная информация, которая имитирует статистические свойства, закономерности и структурные характеристики реальных данных. В быстро развивающихся областях искусственного интеллекта (ИИ) и машинного обучения (МО) эти данные служат важным ресурсом, когда сбор аутентичных данных является дорогостоящим, трудоемким или ограниченным правилами конфиденциальности. В отличие от органических данных, собираемых из реальных событий, синтетические данные создаются алгоритмически с использованием таких методов, как компьютерное моделирование и передовые генеративные модели. К 2030 году отраслевые аналитики Gartner прогнозируют, что синтетические данные затмят реальные данные в моделях ИИ, что коренным образом изменит способы построения и развертывания интеллектуальных систем.
Основной причиной использования синтетических наборов данных является преодоление ограничений, присущих традиционному сбору и аннотированию данных. Для обучения надежных моделей компьютерного зрения (CV) часто требуются огромные наборы данных, содержащие разнообразные сценарии. Когда реальных данных мало — например, при диагностике редких заболеваний или опасных крайних случаях дорожно-транспортных происшествий — синтетические данные помогают преодолеть этот пробел.
Генерация этих данных позволяет разработчикам создавать идеально маркированные учебные данные по запросу. Сюда входят точные ограничительные рамки для обнаружения объектов или маски с идеальной точностью до пикселя для семантической сегментации, что исключает человеческие ошибки, часто встречающиеся в процессах ручной маркировки. Кроме того, это решает проблему предвзятости в ИИ, позволяя инженерам намеренно сбалансировать наборы данных с недопредставленными группами или условиями окружающей среды, обеспечивая более справедливую работу модели.
Синтетические данные революционизируют отрасли, в которых конфиденциальность, безопасность и масштабируемость данных имеют первостепенное значение.
Создание высококачественных синтетических данных часто предполагает использование двух основных подходов: симуляционных движков и генеративного ИИ. Симуляционные движки, такие как Unity Engine, используют 3D-графику для рендеринга сцен с физически обоснованным освещением и текстурами. В качестве альтернативы, генеративные модели, такие как генеративно-состязательные сети (GAN) и диффузионные модели, изучают распределение реальных данных для синтеза новых фотореалистичных примеров.
После генерации синтетического набора данных его можно использовать для обучения высокопроизводительных моделей. В следующем Python
показано, как загрузить модель, потенциально обученную на синтетических данных, с помощью ultralytics пакет для
выполнения инференции на изображении.
from ultralytics import YOLO
# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")
# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results to verify model performance
results[0].show()
Полезно отличать синтетические данные от увеличения объема данных, поскольку обе технологии направлены на расширение наборов данных, но функционируют по-разному.
Современные рабочие процессы на Ultralytics часто сочетают оба подхода: использование синтетических данных для заполнения пробелов в наборе данных и применение аугментации данных во время обучения для максимизации надежности моделей, таких как YOLO26.