Los datos sintéticos se refieren a los datos generados artificialmente que imitan las propiedades estadísticas de los datos del mundo real, en lugar de ser recogidos directamente de sucesos o mediciones reales. En los campos de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), los datos sintéticos sirven como alternativa o complemento crucial a los datos de entrenamiento reales. Son especialmente valiosos cuando recopilar suficientes datos del mundo real es difícil, caro, lleva mucho tiempo o plantea problemas de privacidad. Esta información creada artificialmente ayuda a entrenar modelos, probar sistemas y explorar escenarios que podrían ser raros o peligrosos en la realidad.
Cómo se crean los datos sintéticos
Los datos sintéticos pueden generarse mediante diversas técnicas, en función de la complejidad y fidelidad deseadas:
- Modelización estadística: Utilizando métodos estadísticos como el muestreo a partir de distribuciones que se ajustan a las características de los datos reales.
- Simulación: Creación de entornos o modelos virtuales para generar datos basados en reglas e interacciones predefinidas. Esto es habitual en campos como la robótica y los sistemas autónomos. Plataformas como NVIDIA Omniverse se utilizan a menudo para generar simulaciones realistas.
- Modelos Generativos: El empleo de técnicas de Aprendizaje Profundo (AD ), como las Redes Generativas Adversariales (GAN) o los Autoencodificadores Variacionales (VAE), para aprender los patrones subyacentes de los datos reales y generar nuevos puntos de datos similares. El artículo original sobre las GAN introdujo un potente marco para ello.
Importancia en IA y Visión Artificial
Los datos sintéticos ofrecen varias ventajas para el desarrollo de la IA:
- Superar la escasez de datos: Proporciona grandes conjuntos de datos necesarios para entrenar modelos complejos como Ultralytics YOLO cuando los datos reales son limitados.
- Mejora de la privacidad de los datos: Permite el entrenamiento de modelos sin exponer información sensible del mundo real, algo crucial en áreas como la sanidad y las finanzas. A veces, las técnicas pueden incorporar conceptos como la Privacidad Diferencial.
- Cobertura de casos límite: Permite crear datos para escenarios raros o críticos (por ejemplo, situaciones de emergencia para coches autoconducidos) que son difíciles de captar en el mundo real.
- Reducir el sesgo: Puede ayudar potencialmente a mitigar el sesgo del conjunto de datos generando conjuntos de datos equilibrados, aunque hay que tener cuidado de no introducir nuevos sesgos.
- Eficiencia en coste y tiempo: La generación de datos sintéticos puede ser más rápida y barata que la recopilación y anotación exhaustiva de datos del mundo real.
En visión por ordenador, las imágenes sintéticas se utilizan para entrenar modelos para tareas como la detección de objetos y la segmentación de imágenes en diversas condiciones (iluminación, clima, puntos de vista).
Aplicaciones en el mundo real
- Vehículos autónomos: Entrenar sistemas de percepción para coches autónomos requiere grandes cantidades de datos que cubran diversas condiciones de conducción y sucesos raros (como accidentes u obstáculos inusuales). Las empresas utilizan simuladores como Unity Simulation o plataformas propias como el entorno de simulación de Waymo para generar datos sintéticos realistas de conducción, mejorando la robustez del modelo y la seguridad de la IA en automoción.
- Sanidad: Las normativas sobre privacidad de los pacientes (como la HIPAA) restringen el uso de datos médicos reales. Los datos sintéticos permiten a los investigadores y desarrolladores entrenar modelos de IA para el análisis de imágenes médicas (por ejemplo, la detección de tumores) o el análisis de historiales médicos electrónicos sin comprometer la confidencialidad del paciente. Proyectos como Synthea generan historiales sintéticos de pacientes para la investigación en el ámbito de la IA en la atención sanitaria.
Datos Sintéticos vs. Aumento de Datos
Aunque tanto los datos sintéticos como el aumento de datos pretenden aumentar la diversidad y el volumen de los datos de entrenamiento, son conceptos distintos:
- Aumento de datos: Consiste en aplicar transformaciones (como rotación, escalado, recorte, cambios de color) a los datos reales existentes para crear versiones ligeramente modificadas. Amplía el conjunto de datos, pero depende de disponer de un conjunto inicial de datos reales. Para ello pueden integrarse herramientas como Albumentations.
- Datos sintéticos: Consiste en crear puntos de datos totalmente nuevos a partir de cero, a menudo utilizando modelos o simulaciones, sin partir necesariamente de ejemplos reales (aunque los modelos suelen entrenarse inicialmente con datos reales).
Los datos sintéticos pueden colmar lagunas que el aumento no puede cubrir, como la creación de ejemplos de escenarios totalmente desconocidos o la generación de datos cuando los datos reales no están disponibles o son inutilizables debido a restricciones de privacidad. Sin embargo, garantizar que los datos sintéticos reflejen con precisión la complejidad del mundo real sigue siendo un reto, que puede dar lugar a problemas como el ajuste excesivo a la distribución sintética si no se gestiona con cuidado. Plataformas como Ultralytics HUB permiten entrenar modelos en diversos conjuntos de datos, incluidos potencialmente los sintéticos.