用語集

観測可能性

Ultralytics YOLO のようなAI/MLシステムを観測可能性がどのように強化するかをご覧ください。実世界のアプリケーションにおいて、洞察力を獲得し、パフォーマンスを最適化し、信頼性を確保します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

特に人工知能(AI)や機械学習(ML)のダイナミックな分野では不可欠です。次のような高度なモデルを扱うユーザーにとって Ultralytics YOLOのような高度なモデルを使用するユーザーにとって、外部出力を通じてデプロイされたアプリケーションの内部状態を理解することは、信頼性を維持し、パフォーマンスを最適化し、実世界のアプリケーションの信頼性を確保するための鍵となります。モデル開発と運用の成功のギャップを埋めるのに役立ちます。

観測可能性とは何か?

観測可能性とは、ログ、メトリクス、トレースなどの出力を調べることによって、システムの内部状態を測定し、理解する能力のことです。一般的に、事前に定義されたダッシュボードや既知の故障モード(例:CPUやメモリなど)に焦点を当てる従来のモニタリングとは異なります、 CPU使用率、エラー率など)に焦点を当てる従来のモニタリングとは異なり、観測可能性を利用することで、チームはシステムの挙動をプロアクティブに調査し、開発中に予期しなかった新しい問題を診断することができます。MLOps(機械学習オペレーション)の文脈では、MLモデルの開発とデプロイの反復的な性質にとって重要な、システムが特定の方法で動作している理由について、より深い質問をすることができます。これは、ディープラーニング・モデルを含む複雑なシステムを可視化することである。

なぜAI/MLでは観測可能性が重要なのか?

ディープラーニング・モデルは複雑で、しばしば「ブラックボックス」的な性質を持つため、観測可能性が不可欠となる。主な理由は以下の通り:

観測可能性 vs モニタリング

関連はあるが、観測可能性とモニタリングは範囲と目的が異なる。モニタリングは、既知のベンチマーク(例えば、デプロイされたオブジェクト検出モデルのmAPスコアのトラッキング)に対してシステムの健全性を追跡するために、事前に定義されたメトリクスに関するデータを収集し、分析することを含む。システムは稼働しているか」「エラー率はX以下か」といった質問に答えます。モデルモニタリングは、実稼働中のMLモデルに特化したモニタリングの一種です。

しかし、Observabilityは、データ出力(ログ、メトリクス、トレース-しばしば「Observabilityの3本柱」と呼ばれる-)を使用して、より深い探索的分析を可能にする。これにより、システムの状態、特に予期しない状態の背後にある「理由」を理解することができる。モニタリングは、既知の問題を報告するダッシュボードを見るようなものだと考えてください。一方、観測可能性は、既知または未知の異常を調査するためのツール(ログの照会やリクエストのトレースなど)を提供します。これは複雑なシステムのデバッグを容易にする。

主要な構成要素(3つの柱)

観測可能性は、主に3種類の遠隔測定データに依存している:

  1. ログ:システム内で発生した個別イベントのタイムスタンプ付き記録。ログは、特定のインシデントのデバッグや一連の操作の理解に役立つ、詳細なコンテキスト情報を提供する。例えば、エラーメッセージ、アプリケーションイベント、リクエストの詳細などがある。
  2. メトリクス:システム・パフォーマンスや動作を時間間隔をおいて測定した数値表現。メトリクスは集計可能であり、傾向の追跡、アラートの設定、システム全体の健全性の把握(リクエストの待ち時間、エラー率、リソースの使用率など)に効率的です。
  3. トレース:リクエストや操作が分散システムの様々なコンポーネントを通過する過程を示す記録。トレースは、フローの可視化、パフォーマンスのボトルネックの特定、サービス間の依存関係の理解に役立ち、マイクロサービス・アーキテクチャや複雑なMLパイプラインにとって極めて重要です。

実世界での応用

高度なAI/MLの導入には、観測可能性の実践が不可欠である:

  • 自律走行システム: 車載ソリューションのAIでは、観測可能性が重要です。センサー(LiDARやカメラなど)からのログ、知覚モデルの推論速度に関するメトリクス、知覚から制御までの意思決定プロセスを追跡するトレースなどが常に分析される。これにより、ウェイモのような企業のエンジニアは、稀に発生する不具合(特定の気象条件下で物体を誤認識するなど)を診断し、システムの安全性と信頼性を確保することができる。
  • 医療画像解析: 医用画像解析にAIを導入する場合、観察可能性が診断品質の確保に役立ちます。指標はモデルの信頼度スコアと放射線科医との一致率を追跡します。ログは、エッジケースやレビューのフラグが立てられた画像を記録します。トレースは、画像の取り込みから前処理、推論、報告までを追跡することができ、エラーや遅延の原因を特定し、医療規制へのコンプライアンスを維持するのに役立ちます(Radiology AI research)。

ツールとプラットフォーム

観測可能性を実装するには、しばしば特別なツールやプラットフォームが必要になる。Prometheus(メトリクス)、Grafana(可視化)、Loki(ログ)、Jaegerや Zipkin(トレース)のようなオープンソースのソリューションが人気だ。OpenTelemetryは、インスツルメンテーションのためのベンダーニュートラルな標準を提供する。DatadogNew RelicDynatraceのような商用プラットフォームは統合ソリューションを提供している。MLflow のような MLOps プラットフォーム、 Weights & Biasesそして ClearMLなどの MLOps プラットフォームには、実験を追跡してモデルを監視する機能が含まれていることが多く、システム全体の観測可能性に貢献しています。Ultralytics HUBは、トレーニングの実行、データセット、およびデプロイされたモデルの管理を容易にし、TensorBoardのようなメトリクスを可視化するツールと統合します。

すべて読む