Glosario

Observabilidad

Descubre cómo la observabilidad mejora los sistemas de IA/ML como Ultralytics YOLO . Obtén información, optimiza el rendimiento y garantiza la fiabilidad en aplicaciones del mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La observabilidad proporciona conocimientos críticos sobre el comportamiento y el rendimiento de sistemas complejos, especialmente vitales en el dinámico campo de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM). Para los usuarios que trabajan con modelos sofisticados como Ultralytics YOLOla comprensión del estado interno de las aplicaciones desplegadas a través de sus salidas externas es clave para mantener la fiabilidad, optimizar el rendimiento y garantizar la fiabilidad en las aplicaciones del mundo real. Ayuda a salvar la distancia entre el desarrollo del modelo y el éxito operativo.

¿Qué es la observabilidad?

La observabilidad es la capacidad de medir y comprender los estados internos de un sistema examinando sus salidas, como registros, métricas y trazas. A diferencia de la monitorización tradicional, que suele centrarse en cuadros de mando predefinidos y modos de fallo conocidos (p. ej, CPU tasas de error), la observabilidad permite a los equipos explorar proactivamente el comportamiento del sistema y diagnosticar nuevos problemas, incluso los no previstos durante el desarrollo. En el contexto de las MLOps (Operaciones de Aprendizaje Automático), permite hacer preguntas más profundas sobre por qué un sistema se comporta de una determinada manera, lo que es crucial para la naturaleza iterativa del desarrollo y despliegue de modelos de ML. Se trata de ganar visibilidad en sistemas complejos, incluidos los modelos de aprendizaje profundo.

¿Por qué es importante la observabilidad en la IA/ML?

La complejidad y la naturaleza a menudo de "caja negra" de los modelos de aprendizaje profundo hacen que la observabilidad sea indispensable. Entre las razones clave se incluyen:

Observabilidad vs. Supervisión

Aunque están relacionadas, la observabilidad y la supervisión difieren en su alcance y finalidad. La monitorización implica recopilar y analizar datos sobre métricas predefinidas para realizar un seguimiento de la salud del sistema con respecto a puntos de referencia conocidos (por ejemplo, realizar un seguimiento de la puntuación mAP de un modelo de detección de objetos desplegado). Responde a preguntas como "¿Está funcionando el sistema?" o "¿Está la tasa de errores por debajo de X?". La monitorización de modelos es un tipo específico de monitorización centrada en los modelos ML en producción.

La observabilidad, sin embargo, utiliza las salidas de datos (registros, métricas, trazas -a menudo denominados los"tres pilares de la observabilidad"-) para permitir un análisis exploratorio más profundo. Te permite comprender el "por qué" de los estados del sistema, especialmente los inesperados. Piensa que la monitorización es como mirar un tablero de mandos que informa de problemas conocidos, mientras que la observabilidad proporciona las herramientas (como consultar registros o rastrear peticiones) para investigar cualquier anomalía, conocida o desconocida. Facilita la depuración de sistemas complejos.

Componentes clave (Los tres pilares)

La observabilidad se basa en tres tipos principales de datos telemétricos:

  1. Registros: Registros con fecha y hora de sucesos discretos que ocurren en el sistema. Los registros proporcionan información detallada y contextual, útil para depurar incidentes concretos o comprender secuencias de operaciones. Algunos ejemplos son los mensajes de error, los eventos de la aplicación o los detalles de las solicitudes.
  2. Métricas: Representaciones numéricas del rendimiento o comportamiento del sistema, medidas en intervalos de tiempo. Las métricas son agregables y eficaces para seguir tendencias, establecer alertas y comprender el estado general del sistema (por ejemplo, latencia de las peticiones, tasa de errores, utilización de recursos).
  3. Trazas: Registros que muestran el recorrido de una solicitud u operación a medida que se propaga a través de varios componentes de un sistema distribuido. Las trazas ayudan a visualizar el flujo, identificar los cuellos de botella en el rendimiento y comprender las dependencias entre servicios, algo crucial para las arquitecturas de microservicios o las complejas canalizaciones de ML.

Aplicaciones en el mundo real

Las prácticas de observabilidad son vitales en los despliegues sofisticados de IA/ML:

  • Sistemas de Conducción Autónoma: En las soluciones de IA para automoción, la observabilidad es fundamental. Se analizan constantemente los registros de los sensores (como LiDAR, cámaras), las métricas sobre la velocidad de inferencia del modelo de percepción y las trazas que rastrean el proceso de toma de decisiones desde la percepción hasta el control. Esto ayuda a los ingenieros de empresas como Waymo a diagnosticar fallos poco frecuentes (por ejemplo, identificar erróneamente un objeto en determinadas condiciones meteorológicas) y a garantizar la seguridad y fiabilidad del sistema.
  • Análisis de imágenes médicas: Al desplegar la IA para el análisis de imágenes médicas, la observabilidad ayuda a garantizar la calidad del diagnóstico. Las métricas registran la puntuación de confianza del modelo y la tasa de acuerdo con los radiólogos. Los registros registran los casos extremos o las imágenes marcadas para revisión. Las trazas pueden seguir una imagen desde la ingestión hasta el preprocesamiento, la inferencia y la elaboración de informes, lo que ayuda a identificar fuentes de error o retraso y a mantener el cumplimiento de la normativa sanitaria(investigación sobre IA en radiología).

Herramientas y plataformas

Implementar la observabilidad a menudo implica herramientas y plataformas especializadas. Son populares las soluciones de código abierto como Prometheus (métricas), Grafana (visualización), Loki (registros) y Jaeger o Zipkin (rastreo). OpenTelemetry proporciona un estándar neutral para la instrumentación. Plataformas comerciales como Datadog, New Relic y Dynatrace ofrecen soluciones integradas. Plataformas MLOps como MLflow, Weights & Biasesy ClearML suelen incluir funciones para el seguimiento de experimentos y la supervisión de modelos, lo que contribuye a la observabilidad general del sistema. Ultralytics HUB facilita la gestión de ejecuciones de entrenamiento, conjuntos de datos y modelos desplegados, integrándose con herramientas como TensorBoard para la visualización de métricas, que es un aspecto clave de la observabilidad durante la fase de entrenamiento del modelo.

Leer todo