Glosario

Datos sintéticos

Descubre cómo los datos sintéticos revolucionan la IA y el ML al mejorar la privacidad, la escalabilidad y el rendimiento de los modelos en diversos sectores.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los datos sintéticos son datos generados artificialmente que imitan los datos del mundo real en cuanto a estructura, distribución y patrones, pero que no proceden directamente de observaciones del mundo real. Este enfoque innovador ha ganado terreno en la inteligencia artificial (IA) y el aprendizaje automático (AM) como solución a problemas como la disponibilidad limitada de datos, los problemas de privacidad y los conjuntos de datos desequilibrados. Los datos sintéticos pueden crearse mediante algoritmos, simulaciones o modelos generativos como las Redes Adversariales Generativas (GAN), y se utilizan ampliamente en todos los sectores para apoyar un desarrollo robusto y seguro de la IA.

Por qué son importantes los datos sintéticos

En la IA y el ML, los datos de alta calidad son fundamentales para entrenar eficazmente los modelos. Sin embargo, la adquisición de datos del mundo real a menudo presenta retos éticos, legales y logísticos. Los datos sintéticos ofrecen una alternativa escalable, rentable y que preserva la privacidad. Al reproducir las propiedades estadísticas de los datos del mundo real, los conjuntos de datos sintéticos permiten a los investigadores y desarrolladores entrenar, validar y probar modelos sin manejar directamente información sensible o privada.

Beneficios clave:

  • Protección de la privacidad: Los datos sintéticos eliminan la información personal identificable (IPI), reduciendo los riesgos de privacidad y permitiendo el cumplimiento de normativas como la GDPR.
  • Rentabilidad: Generar datos sintéticos puede ser más rápido y asequible que recopilar y anotar conjuntos de datos del mundo real.
  • Conjuntos de datos equilibrados: Los datos sintéticos permiten crear conjuntos de datos equilibrados, lo que ayuda a abordar el sesgo o las clases infrarrepresentadas en los datos de entrenamiento.
  • Personalización: Los desarrolladores pueden generar datos adaptados a escenarios específicos, incluyendo casos raros o límite, para mejorar la solidez del modelo.

Aplicaciones de los Datos Sintéticos

Los datos sintéticos se utilizan en diversos ámbitos para resolver retos complejos e impulsar la innovación. A continuación, dos ejemplos concretos:

  1. Sanidad:En sanidad, los datos sintéticos son fundamentales para entrenar modelos de IA sin comprometer la privacidad del paciente. Por ejemplo, se pueden utilizar resonancias magnéticas o tomografías computarizadas sintéticas para desarrollar herramientas de diagnóstico que detecten enfermedades como tumores. Más información sobre la IA en la sanidad y cómo está transformando el diagnóstico médico por imagen.

  2. Vehículos autónomos: Los sistemas de conducción autónoma dependen en gran medida de datos sintéticos para simular entornos de conducción complejos. Se recrean virtualmente escenarios como condiciones meteorológicas adversas, patrones dinámicos de tráfico y sucesos poco frecuentes (por ejemplo, peatones que cruzan la calle imprudentemente) para entrenar la detección de objetos y los modelos de toma de decisiones. Descubre cómo la IA en los coches autoconducidos aprovecha los datos sintéticos para mejorar la seguridad y la eficacia.

Cómo se generan los datos sintéticos

La creación de datos sintéticos suele implicar algoritmos y tecnologías avanzados como:

  • Simulaciones: Herramientas como los simuladores basados en la física generan datos sintéticos para escenarios como las pruebas de vehículos autónomos o la robótica.
  • Modelos de Aprendizaje Automático: Técnicas como las GAN y los Autocodificadores Variacionales (VAE) generan muestras de datos realistas aprendiendo las distribuciones subyacentes de los conjuntos de datos del mundo real.
  • Aumento de datos: Los datos sintéticos también pueden derivarse de datos del mundo real utilizando técnicas de aumento de datos para crear nuevas variaciones, como imágenes rotadas o escaladas en aplicaciones de visión por ordenador.

Datos Sintéticos vs. Conceptos Relacionados

  • Datos reales: A diferencia de los datos reales recogidos a partir de observaciones o experimentos, los datos sintéticos se crean artificialmente y no corresponden a hechos o entidades reales.
  • Aumento de datos: Mientras que los datos sintéticos pueden ser totalmente artificiales, el aumento de datos implica modificar los datos reales existentes para generar nuevas muestras. Ambos enfoques pretenden ampliar los conjuntos de datos, pero difieren en la metodología.
  • Datos anonimizados: A diferencia de los datos anonimizados, que se obtienen a partir de datos del mundo real eliminando los detalles que los identifican, los datos sintéticos se generan de nuevo, lo que garantiza que no haya ningún vínculo directo con personas o hechos reales.

Consideraciones éticas

Aunque los datos sintéticos ofrecen numerosas ventajas, hay que tener en cuenta consideraciones éticas. Por ejemplo, los datos sintéticos mal generados pueden introducir sesgos o imprecisiones, que afecten al rendimiento del modelo en escenarios del mundo real. Además, los desarrolladores deben asegurarse de que los datos sintéticos reflejen con exactitud la diversidad y complejidad de las poblaciones del mundo real para evitar perpetuar las desigualdades.

Orientaciones futuras

A medida que se amplíen las aplicaciones de IA y ML, los datos sintéticos desempeñarán un papel cada vez más fundamental en la democratización del acceso a conjuntos de datos de alta calidad. Plataformas como Ultralytics HUB simplifican el proceso de desarrollo y despliegue de soluciones de IA, permitiendo a los usuarios integrar datos sintéticos sin problemas en sus flujos de trabajo. Por ejemplo, los conjuntos de datos sintéticos pueden cargarse en Ultralytics HUB para entrenar modelos avanzados como Ultralytics YOLOque soportan tareas como la detección, segmentación y clasificación de objetos.

Recursos adicionales

Al abordar los retos que plantean los datos y dar prioridad a la privacidad y la escalabilidad, los datos sintéticos están preparados para revolucionar el desarrollo de la IA y el ML en todos los sectores.

Leer todo