Glossário

Observabilidade

Descobre como a observabilidade melhora os sistemas de IA/ML como Ultralytics YOLO . Obtém informações, optimiza o desempenho e garante a fiabilidade em aplicações do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A observabilidade fornece informações críticas sobre o comportamento e o desempenho de sistemas complexos, particularmente vitais no campo dinâmico da Inteligência Artificial (IA) e da Aprendizagem Automática (AM). Para os utilizadores que trabalham com modelos sofisticados como o Ultralytics YOLOcompreender o estado interno das aplicações implementadas através dos seus resultados externos é fundamental para manter a fiabilidade, otimizar o desempenho e garantir a fiabilidade das aplicações do mundo real. Ajuda a preencher a lacuna entre o desenvolvimento do modelo e o sucesso operacional.

O que é a observabilidade?

A observabilidade é a capacidade de medir e compreender os estados internos de um sistema, examinando os seus resultados, como registos, métricas e traços. Ao contrário da monitorização tradicional, que normalmente se concentra em painéis de controlo predefinidos e modos de falha conhecidos (por exemplo CPU utilização da CPU, taxas de erro), a observabilidade equipa as equipas para explorar proactivamente o comportamento do sistema e diagnosticar novos problemas - mesmo aqueles que não foram previstos durante o desenvolvimento. No contexto de MLOps (Machine Learning Operations), permite fazer perguntas mais profundas sobre o motivo pelo qual um sistema se comporta de uma determinada forma, o que é crucial para a natureza iterativa do desenvolvimento e implementação de modelos de ML. Trata-se de ganhar visibilidade em sistemas complexos, incluindo modelos de aprendizagem profunda.

Porque é que a observabilidade é importante na IA/ML?

A complexidade e a natureza frequentemente "caixa negra" dos modelos de aprendizagem profunda tornam a observabilidade indispensável. As principais razões incluem:

Observabilidade vs. Monitorização

Embora relacionadas, a observabilidade e a monitorização diferem em termos de âmbito e objetivo. A monitorização envolve a recolha e análise de dados sobre métricas predefinidas para acompanhar o estado do sistema em relação a parâmetros de referência conhecidos (por exemplo, acompanhar a pontuação mAP de um modelo de deteção de objectos implementado). Responde a perguntas como "O sistema está operacional?" ou "A taxa de erro é inferior a X?". A monitorização de modelos é um tipo específico de monitorização centrado nos modelos de ML em produção.

A observabilidade, no entanto, usa as saídas de dados (logs, métricas, traços - muitas vezes chamados de"três pilares da observabilidade") para permitir uma análise mais profunda e exploratória. Permite-lhe compreender o "porquê" dos estados do sistema, especialmente os inesperados. Pensa na monitorização como olhar para um painel de instrumentos que relata problemas conhecidos, enquanto a observabilidade fornece as ferramentas (como consultar registos ou rastrear pedidos) para investigar qualquer anomalia, conhecida ou desconhecida. Facilita a depuração de sistemas complexos.

Componentes principais (os três pilares)

A observabilidade baseia-se em três tipos principais de dados de telemetria:

  1. Registos: Registos com carimbo de data e hora de eventos discretos que ocorrem no sistema. Os registos fornecem informações detalhadas e contextuais úteis para a depuração de incidentes específicos ou para a compreensão de sequências de operações. Os exemplos incluem mensagens de erro, eventos de aplicações ou detalhes de pedidos.
  2. Métricas: Representações numéricas do desempenho ou comportamento do sistema medido em intervalos de tempo. As métricas são agregáveis e eficientes para rastrear tendências, definir alertas e entender a saúde geral do sistema (por exemplo, latência de solicitação, taxa de erro, utilização de recursos).
  3. Traços: Registos que mostram o percurso de um pedido ou operação à medida que se propaga através de vários componentes de um sistema distribuído. Os rastreamentos ajudam a visualizar o fluxo, identificar gargalos de desempenho e entender as dependências entre os serviços, o que é crucial para arquiteturas de microsserviços ou pipelines de ML complexos.

Aplicações no mundo real

As práticas de observabilidade são vitais em implementações sofisticadas de IA/ML:

  • Sistemas de condução autónoma: Na IA para soluções automóveis, a observabilidade é fundamental. Os registos dos sensores (como LiDAR, câmaras), as métricas sobre a velocidade de inferência do modelo de perceção e os traços que acompanham o processo de tomada de decisões desde a perceção até ao controlo são constantemente analisados. Isto ajuda os engenheiros de empresas como a Waymo a diagnosticar falhas raras (por exemplo, a identificação errada de um objeto em condições meteorológicas específicas) e a garantir a segurança e a fiabilidade do sistema.
  • Análise de imagens médicas: Ao implementar a IA para análise de imagens médicas, a observabilidade ajuda a garantir a qualidade do diagnóstico. As métricas acompanham a pontuação de confiança do modelo e a taxa de concordância com os radiologistas. Os registos registam casos extremos ou imagens sinalizadas para revisão. Os traços podem seguir uma imagem desde a ingestão até ao pré-processamento, inferência e relatório, ajudando a identificar fontes de erro ou atraso e a manter a conformidade com os regulamentos de cuidados de saúde(investigação de IA em radiologia).

Ferramentas e plataformas

A implementação da observabilidade geralmente envolve ferramentas e plataformas especializadas. Soluções de código aberto como Prometheus (métricas), Grafana (visualização), Loki (logs) e Jaeger ou Zipkin (rastreamento) são populares. O OpenTelemetry fornece um padrão neutro de fornecedor para instrumentação. Plataformas comerciais como Datadog, New Relic e Dynatrace oferecem soluções integradas. Plataformas MLOps, como MLflow, Weights & Biasese ClearML incluem frequentemente funcionalidades para acompanhar experiências e modelos de monitorização, contribuindo para a observabilidade geral do sistema. OUltralytics HUB facilita a gestão de execuções de treino, conjuntos de dados e modelos implementados, integrando-se com ferramentas como o TensorBoard para visualizar métricas, o que é um aspeto fundamental da observabilidade durante a fase de treino do modelo.

Lê tudo