Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Datos sintéticos

Descubra cómo los datos sintéticos impulsan la inteligencia artificial y el aprendizaje automático. Aprenda a generar conjuntos de datos de alta calidad para Ultralytics y mejorar la precisión de los modelos hoy mismo.

Los datos sintéticos son información generada artificialmente que imita las propiedades estadísticas, los patrones y las características estructurales de los datos del mundo real. En los campos en rápida evolución de la inteligencia artificial (IA) y el aprendizaje automático (ML), estos datos sirven como un recurso fundamental cuando la recopilación de datos auténticos es costosa, lleva mucho tiempo o está restringida por las normativas de privacidad. A diferencia de los datos orgánicos recopilados de eventos del mundo real, los datos sintéticos se crean algorítmicamente utilizando técnicas como simulaciones por ordenador y modelos generativos avanzados. Para 2030, los analistas de la industria de Gartnerpredicen que los datos sintéticos eclipsarán a los datos reales en los modelos de IA, lo que cambiará fundamentalmente la forma en que se construyen y se implementan los sistemas inteligentes.

El papel de los datos sintéticos en el desarrollo de la IA

El principal motivo para utilizar conjuntos de datos sintéticos es superar las limitaciones inherentes a la recopilación y anotación de datos tradicionales. El entrenamiento de modelos robustos de visión por ordenador (CV) a menudo requiere conjuntos de datos masivos que contengan escenarios diversos. Cuando los datos del mundo real son escasos, como en el diagnóstico de enfermedades raras o en accidentes de tráfico peligrosos, los datos sintéticos cubren esta carencia.

La generación de estos datos permite a los desarrolladores crear datos de entrenamiento perfectamente etiquetados bajo demanda. Esto incluye cuadros delimitadores precisos para la detección de objetos o máscaras con píxeles perfectos para la segmentación semántica, lo que elimina el error humano que suele encontrarse en los procesos de etiquetado manual. Además, aborda el sesgo en la IA al permitir a los ingenieros equilibrar deliberadamente los conjuntos de datos con grupos o condiciones ambientales infrarrepresentados, lo que garantiza un rendimiento más justo del modelo.

Aplicaciones en el mundo real

Los datos sintéticos están revolucionando los sectores en los que la privacidad, la seguridad y la escalabilidad de los datos son fundamentales.

  • Simulaciones de conducción autónoma: Probar vehículos autónomos únicamente en el mundo físico es arriesgado y está limitado geográficamente. Las empresas utilizan simuladores fotorrealistas, como NVIDIA , para entrenar sus sistemas de percepción. Estos simuladores generan miles de millones de kilómetros virtuales, exponiendo a la IA a condiciones meteorológicas adversas, comportamientos erráticos de los peatones y diseños urbanos complejos que son difíciles de capturar de forma consistente en el mundo real.
  • Atención sanitaria e imágenes médicas: Las leyes de privacidad de los pacientes, como la HIPAA y el RGPD, regulan estrictamente el intercambio de historiales médicos. Los datos sintéticos permiten crear conjuntos de datos realistas para el análisis de imágenes médicas, como radiografías o resonancias magnéticas, que conservan los marcadores de patología sin contener ninguna información de identificación personal. Esto permite a los investigadores entrenar modelos de detección de tumores de forma colaborativa sin comprometer la confidencialidad de los pacientes.

Generación de datos sintéticos para la IA visual

La creación de datos sintéticos de alta calidad suele implicar dos enfoques principales: motores de simulación e IA generativa. Los motores de simulación, como el motor Unity, utilizan gráficos 3D para renderizar escenas con iluminación y texturas basadas en la física. Por otra parte, los modelos generativos, como las redes generativas adversarias (GAN) y los modelos de difusión, aprenden la distribución de los datos reales para sintetizar nuevos ejemplos fotorrealistas.

Una vez generado un conjunto de datos sintéticos, se puede utilizar para entrenar modelos de alto rendimiento. El siguiente Python muestra cómo cargar un modelo, potencialmente entrenado con datos sintéticos, utilizando el ultralytics paquete para realizar inferencias en una imagen.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")

# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify model performance
results[0].show()

Datos Sintéticos vs. Aumento de Datos

Es útil distinguir los datos sintéticos del aumento de datos, ya que ambas técnicas tienen como objetivo ampliar los conjuntos de datos, pero funcionan de manera diferente.

  • El aumento de datos consiste en aplicar transformaciones —como voltear, rotar, recortar o ajustar el color — a imágenes reales existentes para crear ligeras variaciones. Se basa en la fuente de datos original .
  • Los datos sintéticos implican la creación de instancias de datos completamente nuevas desde cero utilizando algoritmos o simulaciones. No requieren estrictamente una imagen original para cada resultado, lo que permite la generación de escenarios que nunca han sido capturados por una cámara.

Los flujos de trabajo modernos en la Ultralytics suelen combinar ambos enfoques: utilizar datos sintéticos para llenar los vacíos en el conjunto de datos y aplicar el aumento de datos durante el entrenamiento para maximizar la solidez de modelos como YOLO26.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora