リアルタイムの予測、スケーラビリティ、アプリケーションへのシームレスな統合を実現するAIモデルの配備。
機械学習(ML)モデルがトレーニングされ、検証されると、次の重要なステップは、新しいデータに対して予測を生成できるようにすることである。このプロセスはモデル・サービング(Model Serving)として知られている。通常APIエンドポイントの背後にあり、アプリケーションや他のシステムがリアルタイムで予測を要求できるようにします。モデル・サービングは、開発されたモデルとその実用的なアプリケーションの間の橋渡しとして機能し、静的なファイルから、より広範な機械学習ライフサイクルの中で、アクティブで価値を生み出すサービスに変換します。
モデルサービングは、MLモデルを運用するための基本である。これがなければ、最先端の Ultralytics YOLOオブジェクト検出器のような最も精度の高いモデルであっても、開発環境で孤立したまま、実世界のプロセスに影響を与えることができません。効果的なモデルサービングは、次のことを保証します:
モデル・サービングは、私たちが日常的に使用する数え切れないほどのAI主導の機能を可能にします。以下に2つの例を挙げる:
ロバストなモデルサービングシステムを実装するには、いくつかのコンポーネントが必要です:
Model DeploymentとModel Servingという用語はしばしば関連していますが、同一ではありません。モデルデプロイメントとは、学習済みのモデルを利用可能にするという、より広い概念である。これには、モデルをアプリケーションに直接埋め込む、オフライン推論のためにエッジデバイスにデプロイする、定期的に予測を実行するバッチ処理パイプラインをセットアップするなど、さまざまな戦略が含まれます。ニーズに応じて、さまざまなモデル展開オプションを検討することができます。
モデルサービングとは、通常API経由でアクセス可能なネットワークサービスとしてモデルをデプロイすることを指し、オンデマンド、多くの場合リアルタイムの予測リクエストを処理するために設計されています。これは、スケーラビリティと低レイテンシを考慮し、継続的な推論機能を提供することに重点を置いた、特定のタイプのモデル展開です。即時の予測を必要とする多くのインタラクティブなアプリケーションでは、モデルサービングは好ましい展開方法です。