Découvre comment l'observabilité améliore les systèmes AI/ML comme Ultralytics YOLO . Acquiers des connaissances, optimise les performances et assure la fiabilité dans les applications du monde réel.
L'observabilité fournit des informations essentielles sur le comportement et les performances des systèmes complexes, particulièrement vitales dans le domaine dynamique de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML). Pour les utilisateurs qui travaillent avec des modèles sophistiqués comme Ultralytics YOLO, comprendre l'état interne des applications déployées à travers leurs sorties externes est essentiel pour maintenir la fiabilité, optimiser les performances et garantir la fiabilité des applications du monde réel. Cela permet de combler le fossé entre le développement du modèle et la réussite opérationnelle.
L'observabilité est la capacité de mesurer et de comprendre les états internes d'un système en examinant ses sorties, telles que les journaux, les métriques et les traces. Contrairement à la surveillance traditionnelle, qui se concentre généralement sur des tableaux de bord prédéfinis et des modes de défaillance connus (par ex, CPU utilisation du processeur, taux d'erreur), l'observabilité permet aux équipes d'explorer de façon proactive le comportement du système et de diagnostiquer de nouveaux problèmes, même ceux qui n'ont pas été anticipés pendant le développement. Dans le contexte des MLOps (Machine Learning Operations), elle permet de poser des questions plus profondes sur les raisons pour lesquelles un système se comporte d'une certaine manière, ce qui est crucial pour la nature itérative du développement et du déploiement des modèles de ML. Il s'agit de gagner en visibilité dans les systèmes complexes, y compris les modèles d'apprentissage profond.
La complexité et la nature souvent "boîte noire" des modèles d'apprentissage profond rendent l'observabilité indispensable. Les principales raisons sont les suivantes :
Bien qu'elles soient liées, l'observabilité et la surveillance diffèrent en termes de portée et d'objectif. La surveillance implique la collecte et l'analyse de données sur des métriques prédéfinies pour suivre l'état de santé du système par rapport à des points de référence connus (par exemple, le suivi du score mAP d'un modèle de détection d'objets déployé). Elle répond à des questions telles que "Le système est-il opérationnel ?" ou "Le taux d'erreur est-il inférieur à X ?". La surveillance des modèles est un type spécifique de surveillance axée sur les modèles ML en production.
L'observabilité, en revanche, utilise les sorties de données (journaux, métriques, traces - souvent appelés les"trois piliers de l'observabilité") pour permettre une analyse exploratoire plus profonde. Elle te permet de comprendre le "pourquoi" des états du système, en particulier ceux qui sont inattendus. Imagine que la surveillance consiste à regarder un tableau de bord signalant les problèmes connus, tandis que l'observabilité fournit les outils (comme l'interrogation des journaux ou le traçage des requêtes) pour enquêter sur toute anomalie, connue ou inconnue. Elle facilite le débogage des systèmes complexes.
L'observabilité repose sur trois types principaux de données télémétriques :
Les pratiques d'observabilité sont vitales dans les déploiements sophistiqués d'IA/ML :
La mise en œuvre de l'observabilité implique souvent des outils et des plateformes spécialisés. Les solutions open-source comme Prometheus (métriques), Grafana (visualisation), Loki (logs) et Jaeger ou Zipkin (traçage) sont populaires. OpenTelemetry fournit une norme neutre pour les fournisseurs en matière d'instrumentation. Les plateformes commerciales comme Datadog, New Relic et Dynatrace proposent des solutions intégrées. Les plateformes MLOps telles que MLflow, Weights & Biaseset ClearML incluent souvent des fonctions de suivi des expériences et de surveillance des modèles, contribuant ainsi à l'observabilité globale du système. Ultralytics HUB facilite la gestion des séries d'entraînement, des ensembles de données et des modèles déployés, en s'intégrant à des outils comme TensorBoard pour la visualisation des métriques, ce qui constitue un aspect essentiel de l'observabilité pendant la phase d'entraînement du modèle.