Glosario

Deriva de datos

Descubre los tipos, causas y soluciones de la deriva de datos en el aprendizaje automático. Aprende a detectar y mitigar la deriva de datos para conseguir modelos de IA sólidos.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La desviación de datos es un reto habitual en el Aprendizaje Automático (AM ), en el que las propiedades estadísticas de los datos de entrada utilizados para entrenar un modelo cambian con el tiempo en comparación con los datos que el modelo encuentra durante la producción o la inferencia. Esta divergencia significa que los patrones que el modelo aprendió durante el entrenamiento pueden dejar de representar con precisión el entorno del mundo real, lo que conduce a una disminución del rendimiento y la precisión. Comprender y gestionar la deriva de los datos es esencial para mantener la fiabilidad de los sistemas de Inteligencia Artificial (IA), sobre todo los que funcionan en condiciones dinámicas, como los vehículos autónomos o las previsiones financieras.

Por qué es importante la deriva de datos

Cuando se produce una desviación de los datos, los modelos entrenados con datos históricos se vuelven menos eficaces a la hora de hacer predicciones sobre datos nuevos y no vistos. Esta degradación del rendimiento puede dar lugar a una toma de decisiones errónea, una reducción del valor empresarial o fallos críticos en aplicaciones sensibles. Por ejemplo, un modelo entrenado para la detección de objetos puede empezar a pasar por alto objetos si las condiciones de iluminación o los ángulos de la cámara cambian significativamente con respecto a los datos de entrenamiento. La supervisión continua del modelo es crucial para detectar a tiempo la desviación y aplicar medidas correctivas, como el reentrenamiento o las actualizaciones del modelo mediante plataformas como Ultralytics HUB, para preservar el rendimiento. Ignorar la desviación de los datos puede hacer que incluso modelos sofisticados como Ultralytics YOLO queden obsoletos.

Causas de la deriva de datos

Varios factores pueden contribuir a la desviación de los datos, entre ellos:

  • Cambios en el mundo real: Los acontecimientos externos, la estacionalidad (por ejemplo, los patrones de compras navideñas) o los cambios en el comportamiento de los usuarios pueden alterar la distribución de los datos.
  • Cambios en la fuente de datos: Las modificaciones en los métodos de recogida de datos, las calibraciones de los sensores o los conductos de procesamiento de datos anteriores pueden introducir desviaciones. Por ejemplo, un cambio en el hardware de la cámara de un sistema de visión por ordenador.
  • Cambios en las características: La relevancia o la definición de las características de entrada pueden cambiar con el tiempo.
  • Problemas de calidad de los datos: Problemas como valores omitidos, valores atípicos o errores introducidos durante la recogida o el procesamiento de los datos pueden acumularse y causar desviaciones. Mantener la calidad de los datos es primordial.
  • Cambios en el modelo ascendente: Si un modelo depende de la salida de otro modelo, los cambios en el modelo ascendente pueden provocar una desviación de los datos para el modelo descendente.

Deriva de Datos vs. Conceptos Relacionados

La deriva de los datos se refiere principalmente a los cambios en la distribución de los datos de entrada (la X variables en la modelización). Es distinto de los conceptos relacionados:

  • Concepto Drift: Se refiere a los cambios en la relación entre los datos de entrada y la variable objetivo (la Y variable). Por ejemplo, la definición de correo basura puede cambiar con el tiempo, aunque las características del propio correo sigan siendo estadísticamente similares. La deriva de datos se centra en las entradas, mientras que la deriva de conceptos se centra en los patrones o reglas subyacentes que el modelo intenta predecir. Más información detección de la deriva conceptual.
  • Detección de anomalías: Consiste en identificar puntos de datos individuales que difieren significativamente de la norma o de los patrones esperados. Aunque a veces las anomalías pueden indicar desviación, la desviación de datos se refiere a un cambio sistémico más amplio en la distribución general de los datos, no sólo a valores atípicos aislados.

Comprender estas distinciones es crucial para unas prácticas MLOps eficaces.

Aplicaciones en el mundo real

La deriva de datos afecta a varios dominios en los que se despliegan modelos de ML:

  • Servicios financieros: Los modelos de detección del fraude pueden sufrir desviaciones a medida que los defraudadores desarrollan nuevas tácticas. Los modelos de puntuación crediticia pueden derivar debido a los cambios en las condiciones económicas que afectan al comportamiento de los prestatarios. Lee sobre los modelos de visión por ordenador en finanzas.
  • Comercio minorista y electrónico: Los sistemas de recomendación pueden desviarse debido a los cambios en las tendencias de consumo, la estacionalidad o los eventos promocionales. Los modelos de gestión de inventarios pueden desviarse si cambia la dinámica de la cadena de suministro o los patrones de demanda de los clientes.
  • Sanidad: Los modelos para el análisis de imágenes médicas, como los utilizados para la detección de tumores, pueden desviarse si se introducen nuevos equipos o protocolos de diagnóstico por imagen, alterando las características de la imagen en comparación con el conjunto de datos de entrenamiento original obtenido de plataformas como Imagenet.
  • Fabricación: Los modelos de mantenimiento predictivo pueden desviarse si el equipo sufre un desgaste distinto del esperado, o si cambian las condiciones de funcionamiento. Explora la IA en la fabricación.

Detectar y mitigar la deriva de datos

Detectar y abordar la deriva de datos implica varias técnicas:

  • Control del rendimiento: El seguimiento de las métricas clave del modelo, como la precisión, la recuperación y la puntuación F1 a lo largo del tiempo, puede indicar una degradación del rendimiento causada potencialmente por la deriva. Herramientas como TensorBoard pueden ayudar a visualizar estas métricas.
  • Control estadístico: Aplicación de pruebas estadísticas para comparar la distribución de los datos entrantes con los datos de entrenamiento. Entre los métodos habituales están la prueba de Kolmogorov-Smirnov, el Índice de Estabilidad de la Población (IEP) o las pruebas de ji al cuadrado.
  • Herramientas de supervisión: Utilizando plataformas de observabilidad especializadas y herramientas como Prometheus, Grafana, Evidently AI y NannyML diseñadas para monitorizar modelos ML en producción. Ultralytics HUB también ofrece funciones para supervisar modelos formados y desplegados a través de su plataforma.
  • Estrategias de mitigación:
    • Reentrenamiento: Reentrenar periódicamente el modelo con datos recientes. Ultralytics HUB facilita los flujos de trabajo de reentrenamiento.
    • Aprendizaje en línea: Actualización del modelo de forma incremental a medida que llegan nuevos datos (utilízalo con precaución, ya que puede ser sensible al ruido).
    • Aumento de datos: Utilización de técnicas durante el entrenamiento para que el modelo sea más robusto ante las variaciones de los datos de entrada.
    • Adaptación al dominio: Emplear técnicas que adapten explícitamente el modelo a la nueva distribución de datos.
    • Selección de modelos: Elegir modelos intrínsecamente más robustos a los cambios de datos. Explora los consejos de entrenamiento de modelos para un entrenamiento robusto.

Gestionar eficazmente la deriva de datos es un proceso continuo vital para garantizar que los sistemas de IA construidos con marcos como PyTorch o TensorFlow sigan siendo fiables y aporten valor durante toda su vida útil.

Leer todo