Glosario

Deriva de datos

Descubre cómo afecta la deriva de datos a los modelos ML, los tipos de deriva, las estrategias de detección y herramientas como Ultralytics HUB para garantizar la fiabilidad de la IA.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La deriva de datos se refiere al fenómeno en el que las propiedades estadísticas de los datos de entrada cambian con el tiempo, lo que provoca una posible degradación del rendimiento de los modelos de aprendizaje automático (AM). Esto ocurre cuando los datos utilizados durante el entrenamiento del modelo ya no representan con exactitud los datos encontrados durante el despliegue. La deriva de datos es un concepto crítico para mantener el rendimiento y la fiabilidad de los sistemas de IA, sobre todo en entornos dinámicos en los que los datos evolucionan con frecuencia.

Tipos de deriva de datos

  1. Deriva de las covariables: Se produce cuando cambia la distribución de las características de entrada (variables independientes), pero la relación entre las entradas y las salidas sigue siendo la misma. Por ejemplo, un modelo que predice el precio de la vivienda puede encontrarse con un cambio en el promedio de metros cuadrados de las casas en los nuevos datos, en comparación con los datos de entrenamiento.
  2. Deriva conceptual: Esto ocurre cuando cambia la relación entre las características de entrada y la variable objetivo (variable dependiente). Por ejemplo, en la detección del fraude, pueden surgir nuevos tipos de fraude que alteren los patrones para cuya detección se entrenó el modelo.

  3. Desplazamiento de la probabilidad previa: Este tipo de deriva se produce cuando la distribución de la variable objetivo cambia con el tiempo. Por ejemplo, en la predicción de la pérdida de clientes, la proporción de clientes con probabilidad de pérdida puede aumentar debido a las tendencias del mercado o a factores externos.

Relevancia de la Deriva de Datos

La desviación de datos plantea retos importantes para las aplicaciones de IA y ML, ya que puede provocar un rendimiento insuficiente de los modelos, predicciones inexactas e incluso fallos del sistema en aplicaciones críticas. Supervisar y abordar la deriva de datos es esencial para garantizar que los modelos sigan siendo eficaces y fiables a lo largo del tiempo. Herramientas como el Ultralytics HUB para la supervisión y el reentrenamiento de modelos proporcionan capacidades para detectar y mitigar la deriva de forma proactiva.

Estrategias para abordar la deriva de datos

  1. Detección de Deriva de Datos: Utiliza pruebas estadísticas y herramientas de seguimiento para identificar cambios en la distribución de los datos. Herramientas como Weights & Biases para el seguimiento del rendimiento del modelo pueden ayudar a controlar las métricas a lo largo del tiempo.

  2. Reentrenamiento periódico del modelo: Reentrena periódicamente los modelos utilizando datos actualizados para alinearlos con la distribución de datos actual. Esto es especialmente útil en sectores como el análisis del comportamiento del cliente minorista impulsado por la IA, donde los patrones evolucionan con frecuencia.

  3. Aprendizaje Adaptativo: Implementa técnicas de aprendizaje adaptativo en las que los modelos se actualicen de forma incremental con nuevos datos, reduciendo la necesidad de un reentrenamiento completo.

  4. Validación con datos en tiempo real: Prueba continuamente los modelos con datos de validación de entornos reales para controlar y ajustar el rendimiento.

Ejemplos de deriva de datos en aplicaciones reales

  1. Sanidad: En las aplicaciones médicas, puede producirse una desviación de los datos debido a los cambios demográficos de los pacientes o a los avances en las tecnologías de diagnóstico. Por ejemplo, un modelo entrenado con equipos de diagnóstico por imagen antiguos puede tener un rendimiento inferior con datos de máquinas más nuevas y de mayor resolución. Más información sobre el impacto de la IA en los avances sanitarios.

  2. Vehículos autónomos: La deriva de datos es habitual en la conducción autónoma debido a los cambios estacionales, la construcción de carreteras o los nuevos patrones de tráfico. Por ejemplo, un modelo entrenado en condiciones estivales puede tener problemas con las imágenes de las carreteras en invierno. Descubre más sobre la visión por ordenador en los coches autónomos.

Distinción de conceptos afines

  • Sobreadaptación: Mientras que la sobreadaptación se refiere a la incapacidad de un modelo para generalizar de los datos de entrenamiento a los datos no vistos, la desviación de datos se refiere a los cambios en los datos de entrada después de que se haya desplegado el modelo. Más información sobre la definición y los efectos de la sobreadaptación.

  • Supervisión de modelos: La detección de la desviación de datos es un subconjunto de las prácticas más amplias de supervisión de modelos, que incluyen el seguimiento de la precisión del modelo, la latencia y otras métricas de rendimiento.

Herramientas para gestionar la deriva de datos

La deriva de los datos es un reto inevitable en el ciclo de vida de los modelos de aprendizaje automático, especialmente en entornos dinámicos. La supervisión proactiva, el reentrenamiento y el uso de herramientas sólidas son esenciales para garantizar que los modelos sigan siendo precisos y eficaces en las aplicaciones del mundo real.

Leer todo