Glossaire

Observabilité

Découvre comment l'observabilité améliore les systèmes AI/ML comme Ultralytics YOLO . Acquiers des connaissances, optimise les performances et assure la fiabilité dans les applications du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'observabilité fournit des informations essentielles sur le comportement et les performances des systèmes complexes, particulièrement vitales dans le domaine dynamique de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML). Pour les utilisateurs qui travaillent avec des modèles sophistiqués comme Ultralytics YOLO, comprendre l'état interne des applications déployées à travers leurs sorties externes est essentiel pour maintenir la fiabilité, optimiser les performances et garantir la fiabilité des applications du monde réel. Cela permet de combler le fossé entre le développement du modèle et la réussite opérationnelle.

Qu'est-ce que l'observabilité ?

L'observabilité est la capacité de mesurer et de comprendre les états internes d'un système en examinant ses sorties, telles que les journaux, les métriques et les traces. Contrairement à la surveillance traditionnelle, qui se concentre généralement sur des tableaux de bord prédéfinis et des modes de défaillance connus (par ex, CPU utilisation du processeur, taux d'erreur), l'observabilité permet aux équipes d'explorer de façon proactive le comportement du système et de diagnostiquer de nouveaux problèmes, même ceux qui n'ont pas été anticipés pendant le développement. Dans le contexte des MLOps (Machine Learning Operations), elle permet de poser des questions plus profondes sur les raisons pour lesquelles un système se comporte d'une certaine manière, ce qui est crucial pour la nature itérative du développement et du déploiement des modèles de ML. Il s'agit de gagner en visibilité dans les systèmes complexes, y compris les modèles d'apprentissage profond.

Pourquoi l'observabilité est-elle importante en IA/ML ?

La complexité et la nature souvent "boîte noire" des modèles d'apprentissage profond rendent l'observabilité indispensable. Les principales raisons sont les suivantes :

  • Optimisation des performances : Identification des goulots d'étranglement dans le pipeline d'inférence ou pendant l'entraînement distribué, optimisation de l'utilisation des ressources (GPU) et améliorer les paramètres comme la latence de l'inférence.
  • Fiabilité et débogage : Détecter et diagnostiquer rapidement les problèmes tels que la dérive des données, la dégradation du modèle au fil du temps ou un comportement inattendu causé par des cas limites dans les données d'entrée. Cela permet de maintenir la précision et la robustesse du modèle.
  • Confiance et explicabilité : Fournir des informations sur les prédictions et le comportement des modèles, soutenir les efforts en matière d'IA explicable (XAI) et renforcer la confiance des utilisateurs, en particulier dans les applications critiques telles que les véhicules autonomes ou les soins de santé.
  • Conformité et gouvernance : S'assurer que les modèles fonctionnent dans les limites éthiques définies(éthique de l'IA) et respectent les exigences réglementaires en enregistrant les décisions et en surveillant les biais algorithmiques. La transparence en matière d'IA est un avantage clé.

Observabilité ou surveillance

Bien qu'elles soient liées, l'observabilité et la surveillance diffèrent en termes de portée et d'objectif. La surveillance implique la collecte et l'analyse de données sur des métriques prédéfinies pour suivre l'état de santé du système par rapport à des points de référence connus (par exemple, le suivi du score mAP d'un modèle de détection d'objets déployé). Elle répond à des questions telles que "Le système est-il opérationnel ?" ou "Le taux d'erreur est-il inférieur à X ?". La surveillance des modèles est un type spécifique de surveillance axée sur les modèles ML en production.

L'observabilité, en revanche, utilise les sorties de données (journaux, métriques, traces - souvent appelés les"trois piliers de l'observabilité") pour permettre une analyse exploratoire plus profonde. Elle te permet de comprendre le "pourquoi" des états du système, en particulier ceux qui sont inattendus. Imagine que la surveillance consiste à regarder un tableau de bord signalant les problèmes connus, tandis que l'observabilité fournit les outils (comme l'interrogation des journaux ou le traçage des requêtes) pour enquêter sur toute anomalie, connue ou inconnue. Elle facilite le débogage des systèmes complexes.

Composants clés (les trois piliers)

L'observabilité repose sur trois types principaux de données télémétriques :

  1. Journaux : Enregistrements horodatés des événements discrets qui se produisent dans le système. Les journaux fournissent des informations détaillées et contextuelles utiles pour déboguer des incidents spécifiques ou comprendre des séquences d'opérations. Les exemples incluent les messages d'erreur, les événements d'application ou les détails des requêtes.
  2. Métriques : Représentations numériques des performances ou du comportement du système, mesurées sur des intervalles de temps. Les métriques sont agrégeables et efficaces pour suivre les tendances, définir des alertes et comprendre l'état général du système (par exemple, latence des requêtes, taux d'erreur, utilisation des ressources).
  3. Traces : Enregistrements montrant le parcours d'une demande ou d'une opération lorsqu'elle se propage à travers les différents composants d'un système distribué. Les traces permettent de visualiser le flux, d'identifier les goulets d'étranglement des performances et de comprendre les dépendances entre les services, ce qui est crucial pour les architectures microservices ou les pipelines ML complexes.

Applications dans le monde réel

Les pratiques d'observabilité sont vitales dans les déploiements sophistiqués d'IA/ML :

  • Systèmes de conduite autonome : Dans les solutions d'IA pour l'automobile, l'observabilité est essentielle. Les journaux des capteurs (comme le LiDAR, les caméras), les métriques sur la vitesse d'inférence du modèle de perception et les traces qui suivent le processus de prise de décision, de la perception au contrôle, sont constamment analysés. Cela aide les ingénieurs d'entreprises comme Waymo à diagnostiquer les défaillances rares (par exemple, l'identification erronée d'un objet dans des conditions météorologiques spécifiques) et à garantir la sécurité et la fiabilité du système.
  • Analyse d'images médicales : Lors du déploiement de l'IA pour l'analyse d'images médicales, l'observabilité permet de garantir la qualité du diagnostic. Les métriques suivent le score de confiance du modèle et le taux d'accord avec les radiologues. Les journaux enregistrent les cas limites ou les images signalées pour examen. Les traces peuvent suivre une image depuis son ingestion jusqu'à son prétraitement, son inférence et son rapport, ce qui permet d'identifier les sources d'erreur ou de retard et de maintenir la conformité avec les réglementations en matière de soins de santé(recherche sur l'IA en radiologie).

Outils et plateformes

La mise en œuvre de l'observabilité implique souvent des outils et des plateformes spécialisés. Les solutions open-source comme Prometheus (métriques), Grafana (visualisation), Loki (logs) et Jaeger ou Zipkin (traçage) sont populaires. OpenTelemetry fournit une norme neutre pour les fournisseurs en matière d'instrumentation. Les plateformes commerciales comme Datadog, New Relic et Dynatrace proposent des solutions intégrées. Les plateformes MLOps telles que MLflow, Weights & Biaseset ClearML incluent souvent des fonctions de suivi des expériences et de surveillance des modèles, contribuant ainsi à l'observabilité globale du système. Ultralytics HUB facilite la gestion des séries d'entraînement, des ensembles de données et des modèles déployés, en s'intégrant à des outils comme TensorBoard pour la visualisation des métriques, ce qui constitue un aspect essentiel de l'observabilité pendant la phase d'entraînement du modèle.

Tout lire