用語集

観測可能性

Ultralytics YOLO のようなAI/MLシステムを観測可能性がどのように強化するかをご覧ください。実世界のアプリケーションにおいて、洞察力を獲得し、パフォーマンスを最適化し、信頼性を確保します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

特に人工知能(AI)や機械学習(ML)のダイナミックな分野では不可欠です。Ultralytics YOLOような洗練されたモデルを扱うユーザーにとって、外部出力を通してデプロイされたアプリケーションの内部状態を理解することは、信頼性を維持し、パフォーマンスを最適化し、信頼性を確保するための鍵となります。

観測可能性とは何か?

観測可能性とは、ログ、メトリクス、トレースなどの出力を調べることによって、システムの内部状態を測定し、理解する機能のことです。一般的に、事前に定義されたダッシュボードや既知の障害モード(CPU 使用率やエラー率など)に焦点を当てる従来のモニタリングとは異なり、観測可能性によって、チームはシステムの挙動をプロアクティブに探索し、開発中に予期しなかったような新しい問題を診断することができる。MLOpsのコンテキストでは、MLモデルの開発とデプロイの反復的な性質にとって重要な、システムが特定の方法で動作している理由について、より深い質問をすることができます。

なぜAI/MLにおいて観測可能性が重要なのか?

ディープラーニング・モデルは複雑で、しばしば「ブラックボックス」的な性質を持つため、観測可能性が不可欠となる。主な理由は以下の通り:

  • 複雑な問題のデバッグ以下のようなモデルにおける微妙なパフォーマンス低下や予期せぬ予測の根本原因を特定する。 Ultralytics YOLOv8.
  • データと概念のドリフトを検出する:モデルの入力と出力を監視して、精度を低下させる可能性のあるデータ分布のシフト(データドリフト)やモデルが学習した基本概念の変化を検出する。
  • パフォーマンスの最適化: 推論パイプラインのボトルネックや、学習・推論時のリソース利用状況を把握。
  • 信頼性と堅牢性の確保: 自律走行車や 医療画像解析などのアプリケーションで重要な、モデルが実稼働環境で期待通りに動作するかどうかの継続的な検証。
  • 信頼と説明可能性の構築:モデルの動作に関する洞察を提供し、説明可能なAI(XAI)の取り組みに貢献する。

観測可能性 vs モニタリング

関連はあるが、観測可能性とモニタリングは範囲と目的が異なる。モニタリングは、既知のベンチマークに照らしてシステムの健全性を追跡するために、事前に定義されたメトリクスに関するデータを収集・分析する。しかし、観測可能性は、データ出力(ログ、メトリクス、トレース-しばしば「観測可能性の3本柱」と呼ばれる)を使用して、より深い探索的分析を可能にし、システム状態、特に予期しない状態の背後にある「理由」を理解できるようにします。モニタリングとはダッシュボードを見ることであり、観測可能性とはダッシュボードやその他の場所に表示された異常を調査するツールを持つことである。

実世界での応用

  1. 物体検出の失敗を診断する:Ultralticsを用いた小売店の棚監視に導入された物体検出モデル Ultralytics YOLO11は、突然商品が見つからなくなり始めました。Observabilityツールは、画像の明るさの変化(入力データのドリフト)を示すメトリクスと、信頼スコアの低下を示すログを関連付け、原因として環境の変化(新しい店舗の照明など)を突き止め、再トレーニングやデータ増強戦略を導きます。
  2. レコメンデーションシステムの改善:あるストリーミング・サービスは、レコメンデーション・エンジンを通じたユーザー・リクエストを追跡するために、観測可能性を利用している。特定のユーザーセグメントでレイテンシ(メトリクス)が増加していることに気づく。トレースは、機能検索中に特定のマイクロサービスのボトルネックを明らかにします。ログは、このサービスのエラー率の上昇を確認し、ユーザーエクスペリエンスを向上させるためのターゲット最適化の取り組みを導きます。

ツールとプラットフォーム

観測可能性を実装するには、多くの場合、様々なツールを統合する必要がある。DatadogGrafanaPrometheusのような汎用プラットフォームは、メトリクスとログの収集と可視化に広く使われている。OpenTelemetryのような標準規格は、アプリケーションがトレースデータを生成するのに役立つ。MLの分野では Weights & BiasesMLflowUltralytics HUBのようなプラットフォームは、実験を追跡し、モデルのパフォーマンスを監視し、MLのライフサイクルを管理するための特別な機能を提供し、モデルの監視と保守のための重要な観測可能性の原則を組み込んでいる。

すべて読む