Glosario

Deriva de datos

Descubre los tipos, causas y soluciones de la deriva de datos en el aprendizaje automático. Aprende a detectar y mitigar la deriva de datos para conseguir modelos de IA sólidos.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La deriva de los datos es un reto habitual en el aprendizaje automático, en el que las propiedades estadísticas de la variable objetivo, o las características de entrada, cambian con el tiempo. Esto significa que los datos sobre los que se ha entrenado un modelo difieren de los datos sobre los que se utiliza para hacer predicciones en el mundo real. Comprender y abordar la deriva de los datos es crucial para mantener la precisión y fiabilidad de los modelos de aprendizaje automático, especialmente en entornos dinámicos.

¿Qué causa la desviación de datos?

Hay varios factores que pueden contribuir a la deriva de los datos, que se clasifican a grandes rasgos en:

  • Cambios en el mundo real: El entorno subyacente que genera los datos puede cambiar. Por ejemplo, en el comercio minorista, las preferencias de los consumidores pueden cambiar debido a nuevas tendencias o condiciones económicas. En la conducción autónoma, los cambios en la infraestructura viaria o los patrones meteorológicos pueden alterar los datos de entrada para los modelos de percepción.
  • Cambios en los datos anteriores: Las modificaciones en las fuentes de datos o en la forma de recopilarlos y procesarlos pueden introducir desviaciones. Esto podría incluir cambios en la calibración de los sensores, actualizaciones del esquema de datos o alteraciones en los conductos de ingeniería de características.
  • Deriva de conceptos: La relación entre las características de entrada y la propia variable objetivo puede evolucionar. Por ejemplo, en la detección del fraude, las actividades fraudulentas pueden volverse más sofisticadas, cambiando los patrones que el modelo aprendió a identificar.
  • Variaciones estacionales: Muchos conjuntos de datos presentan patrones estacionales. Aunque predecibles, estos cambios recurrentes pueden considerarse una forma de deriva si no se tienen en cuenta adecuadamente en el modelo y la estrategia de seguimiento.

Tipos de deriva de datos

La deriva de datos puede manifestarse de distintas formas, cada una de las cuales requiere estrategias específicas de supervisión y mitigación:

  • Deriva de características: Cambios en la distribución de las características de entrada. Por ejemplo, los ingresos medios de los solicitantes de préstamos pueden cambiar con el tiempo, o la distribución de la intensidad de los píxeles en las imágenes utilizadas para el análisis de imágenes médicas puede cambiar debido a un nuevo equipo de obtención de imágenes.
  • Deriva del objetivo: Cambios en la distribución de la variable objetivo que el modelo intenta predecir. En un modelo de análisis de sentimientos, el sentimiento general expresado en las opiniones de los clientes puede volverse más negativo o positivo con el tiempo.
  • Deriva conceptual: Como ya se ha dicho, implica cambios en la relación entre las características y la variable objetivo. Un modelo entrenado para predecir la pérdida de clientes puede perder precisión si el comportamiento del cliente y los desencadenantes de la pérdida de clientes evolucionan.

Por qué es importante la deriva de datos

La desviación de datos afecta directamente al rendimiento de los modelos de aprendizaje automático. Cuando se produce la deriva, los modelos entrenados con datos antiguos pueden ser menos precisos con datos nuevos y no vistos. Esta degradación del rendimiento puede dar lugar a predicciones incorrectas, una toma de decisiones errónea y, en última instancia, una reducción del valor empresarial o incluso fallos críticos en aplicaciones como la IA en los coches autoconducidos. La monitorización continua del modelo es esencial para detectar la desviación y desencadenar las acciones necesarias para mantener la precisión del modelo.

Aplicaciones reales de la deriva de datos

La deriva de datos es relevante en varios dominios en los que se aplica el aprendizaje automático:

  1. Comercio electrónico y minorista: En los sistemas de recomendación, las preferencias de los clientes y las tendencias de los productos cambian constantemente. Por ejemplo, durante las temporadas de vacaciones, la popularidad de ciertos productos aumenta, lo que provoca desviaciones en los datos de comportamiento del usuario y exige que los modelos se adapten para ofrecer recomendaciones pertinentes. Los modelos que potencian la IA para una gestión más inteligente del inventario minorista también deben tener en cuenta estos cambios para optimizar los niveles de existencias.

  2. Servicios financieros: Los modelos de detección del fraude son muy susceptibles a la deriva de los datos. Los defraudadores adaptan continuamente sus tácticas para eludir la detección, lo que provoca una deriva conceptual. Los modelos de predicción de impago de préstamos también pueden sufrir desviaciones debido a los cambios económicos que afectan a la capacidad de los prestatarios para devolver los préstamos.

  3. Sanidad: La IA en aplicaciones sanitarias, como el diagnóstico de enfermedades a partir de imágenes médicas, puede verse afectada por cambios en los protocolos de diagnóstico por imagen, la demografía de los pacientes o la aparición de nuevas variantes de enfermedades, todo lo cual contribuye a la deriva de los datos. Controlar la deriva es crucial para garantizar la fiabilidad continua de estas herramientas de diagnóstico.

Detectar y mitigar la deriva de datos

Se pueden utilizar varias técnicas para detectar y mitigar la deriva de datos:

  • Métodos estadísticos de detección de desviaciones: Técnicas como la prueba de Kolmogorov-Smirnov o el Índice de Estabilidad de la Población (IEP) pueden comparar estadísticamente las distribuciones de los datos de entrenamiento y de los datos reales para identificar cambios significativos.
  • Supervisar las métricas de rendimiento del modelo: El seguimiento de métricas como la exactitud, la precisión y el recuerdo a lo largo del tiempo puede indicar una desviación si el rendimiento empieza a degradarse. YOLO métricas de rendimiento como mAP e IoU son cruciales para los modelos de detección de objetos y deben supervisarse para detectar desviaciones.
  • Reentrenamiento de los modelos: Cuando se detecta una desviación, reentrenar el modelo con datos recientes es una estrategia de mitigación habitual. Esto permite que el modelo aprenda los nuevos patrones de datos y se adapte al entorno modificado. Plataformas como Ultralytics HUB simplifican el proceso de reentrenamiento y redistribución de Ultralytics YOLO modelos.
  • Modelos adaptativos: Desarrollar modelos que sean intrínsecamente más robustos a la deriva, como los modelos de aprendizaje en línea que se actualizan continuamente a medida que llegan nuevos datos, puede ser un enfoque proactivo.

Gestionar eficazmente la desviación de datos es un proceso continuo que requiere una supervisión cuidadosa, mecanismos de detección sólidos y estrategias flexibles de actualización de modelos para garantizar que los sistemas de IA sigan siendo precisos y valiosos a lo largo del tiempo.

Leer todo