用語集

観測可能性

観測可能性がUltralytics YOLOのようなAI/MLシステムをどのように強化するかをご覧ください。実世界のアプリケーションにおいて、洞察を深め、パフォーマンスを最適化し、信頼性を確保します。

オブザーバビリティとは、システムの内部状態に関する忠実度の高いデータを提供し、チームがその動作を効果的に調査、デバッグ、理解できるようにするために、システムを設計し、インスツルメンテーションすることである。人工知能(AI)や機械学習(ML)の文脈では、単純なモニタリングを超えて、複雑なモデルやデータパイプラインに対する深い洞察を可能にします。観測可能なシステムは、事前に定義されたパフォーマンス・メトリクスを追跡するだけでなく、豊富で探索可能なデータを提供するため、モデルのデプロイ後に新たな疑問を投げかけたり、未知の問題を診断したりすることができます。

観測可能性対モニタリング

よく一緒に使われるが、観測可能性とモデルモニタリングは異なる概念である。

  • モニタリングとは、既知の故障モードを監視するためにデータを収集・分析するプロセスである。エラー率が5%を超えた、推論レイテンシが200msを超えたなど、あらかじめ定義された特定のしきい値に対してアラートを設定する。何か問題があれば、それを教えてくれる。
  • 観測可能性とは、たとえその問題を見たことがなくても、何かが間違っている理由を理解できるようにするシステムの特性である。詳細なログ、メトリクス、トレースを使用して、探索的な分析と根本原因の特定を可能にする。観測可能なシステムとは、より多くの情報を収集するために新しいコードを出荷することなくデバッグできるシステムのことである。この機能は、本番稼動中のAIシステムの予測不可能な性質を管理するために不可欠である。

観測可能性の3本柱

観測可能性は、通常、3つのコアタイプの遠隔測定データに基づいて構築される:

  1. ログ:これは不変で、タイムスタンプが押されたイベントの記録である。MLシステムでは、ログは個々の予測リクエスト、データ検証エラー、またはシステム設定の変更を記録するかもしれません。伝統的なロギングは単純なテキストですが、構造化されたロギング(例えばJSON形式)により、ログはスケールでのクエリーと分析がより簡単になります。
  2. メトリクス:これは、経時的に測定されたデータの数値表現である。MLシステムにおける主なメトリクスには、モデル精度、予測スループット、CPU/ GPU使用率、メモリ使用率などがある。Prometheusのような時系列データベースは、このデータの保存とクエリに一般的に使用されます。
  3. トレース:トレースは1つのリクエストやトランザクションがシステムのすべてのコンポーネントを通過する際の詳細なビューを提供する。コンピュータビジョンのパイプラインでは、トレースは1つの画像を取り込み、前処理からモデル推論、後処理まで追跡し、各ステップで費やされた時間を示すことができる。これは、分散システムにおけるボトルネックやエラーをピンポイントで特定するために非常に貴重である。

AIシステムにとって観測可能性が重要な理由

ディープラーニング・モデルは非常に複雑で不透明であるため、実世界での挙動を理解することが難しい。観測可能性は、次のような場合に不可欠である:

  • デバッグとトラブルシューティング: Ultralytics YOLO11のようなモデルが不正確な予測を行った場合、観測可能性ツールは、原因を理解するために入力データとモデルの活性化をトレースするのに役立ちます。
  • ドリフトの検出:AIモデルは、データ・ドリフト(本番データの分布がトレーニング・データから変化すること)やコンセプト・ドリフトにより、時間の経過とともに劣化する可能性があります。Observabilityは、データ分布とモデルのパフォーマンスを監視することで、このようなシフトを検出するのに役立ちます。
  • 信頼と公平性の確保: ヘルスケアにおけるAIのような機密性の高いアプリケーションでは、観測可能性は、モデルの決定の明確な監査証跡を提供することによって、説明可能なAI(XAI)とAIの透明性をサポートします。これは、規制コンプライアンスや利害関係者との信頼構築にとって極めて重要です。
  • パフォーマンスの最適化:リソースの使用量とレイテンシーを追跡することで、チームはモデルの効率を最適化し、MLOpsの重要な目標である運用コストを削減することができる。

実世界での応用

  1. 自律走行車: 自律走行車は、リアルタイムの物体検出に知覚モデルを使用します。Observabilityツールは、センサーから判断まで、システム全体を通してカメラフレームをトレースします。夕暮れ時に車両が歩行者の検出に失敗した場合、エンジニアはトレースを使用して、画像の前処理ステップの待ち時間が原因かどうかを確認できます。また、異なる時間帯の検出信頼度スコアの指標を分析し、システム的な問題を特定することもできます。
  2. 小売店の在庫管理:スマート小売システムはカメラを使って棚の在庫を監視する。観測可能なプラットフォームは、棚ごとに検出された商品数、APIコールの頻度、予測のレイテンシーを追跡する。システムが特定の商品について誤った在庫レベルを報告した場合、開発者はその商品のSKUのトレースをフィルタリングし、ログされた画像と予測スコアを検査し、照明不良や異常なパッケージが問題を引き起こしているかどうかを判断することができる。これにより、迅速な診断と、より良いデータ増強による再トレーニングが可能になります。

ツールとプラットフォーム

観測可能性を実装するためには、しばしば特別なツールやプラットフォームが必要になる。Grafana(可視化)、Loki(ログ)、Jaeger(トレース)のようなオープンソースのソリューションは人気がある。OpenTelemetryはインスツルメンテーションのためのベンダーニュートラルな標準を提供する。DatadogNew RelicDynatraceのような商用プラットフォームは統合ソリューションを提供している。MLflowWeights & BiasesClearMLのようなMLOpsプラットフォームには、実験を追跡しモデルをモニタリングする機能が含まれていることが多い。Ultralytics HUBは、トレーニングの実行とデプロイされたモデルの管理を容易にし、TensorBoardのようなメトリクスを可視化するツールと統合します。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク