用語集

モデル・サービング

リアルタイムの予測、スケーラビリティ、アプリケーションへのシームレスな統合を実現するAIモデルの配備。

機械学習（ML）モデルがトレーニングされ、検証されると、次の重要なステップは、新しいデータに対して予測を生成できるようにすることである。このプロセスはモデル・サービング（Model Serving）として知られている。通常APIエンドポイントの背後にあり、アプリケーションや他のシステムがリアルタイムで予測を要求できるようにします。モデル・サービングは、開発されたモデルとその実用的なアプリケーションの間の橋渡しとして機能し、静的なファイルから、より広範な機械学習ライフサイクルの中で、アクティブで価値を生み出すサービスに変換します。

モデルサーブの重要性

モデルサービングは、MLモデルを運用するための基本である。これがなければ、最先端の Ultralytics YOLOオブジェクト検出器のような最も精度の高いモデルであっても、開発環境で孤立したまま、実世界のプロセスに影響を与えることができません。効果的なモデルサービングは、次のことを保証します：

アクセシビリティ： REST APIや gRPCのような標準的なインターフェースを介して、さまざまなアプリケーションからモデル予測を利用できるようにします。
スケーラビリティ:予測リクエストのさまざまな負荷に対応し、需要の変化に応じて一貫したパフォーマンスを保証します。Amazon SageMakerや Google Cloud AI Platformのようなクラウドプラットフォームは、マネージドスケーリングソリューションを提供している。
信頼性：重要なアプリケーションに安定した継続利用可能なサービスを提供します。
パフォーマンス コンピュータビジョンや自然言語処理（NLP）などの分野でリアルタイム推論のユースケースを可能にするため、推論レイテンシーを低くするよう最適化。

実世界での応用

モデル・サービングは、私たちが日常的に使用する数え切れないほどのAI主導の機能を可能にします。以下に2つの例を挙げる：

Eコマース商品の推薦：オンラインストアを閲覧すると、バックエンドのモデルサービングがレコメンデーションシステムを動かします。閲覧履歴やユーザープロフィールを入力とし、パーソナライズされた商品提案をリアルタイムで返します。
医療診断支援：ヘルスケアでは、医療画像解析用にトレーニングされたモデルをAPI経由で提供することができる。医師は患者のスキャン画像（X線やMRIなど）をサービスにアップロードし、潜在的な異常や診断上の洞察を返すことで、臨床上の意思決定を支援することができる。Ultralytics HUBのようなプラットフォームは、そのような特殊なモデルの展開を容易にする。

モデル給仕の主な構成要素

ロバストなモデルサービングシステムを実装するには、いくつかのコンポーネントが必要です：

モデルのフォーマット：学習済みモデルは、以下のような展開に適した形式で保存する必要があります。 ONNXやTensorFlow SavedModel などの最適化された形式で保存する必要があります。 TensorRT.
サービングフレームワーク： TensorFlow Serving、TorchServe、NVIDIA Triton Inference Serverなどのソフトウェアが、モデルのライフサイクルを管理し、リクエストを処理し、推論を実行する。
APIエンドポイント：インターフェース（多くの場合APIゲートウェイによって管理される）は、モデルの予測機能をクライアントアプリケーションに公開する。
インフラ：オンプレミスのサーバー、クラウド・コンピューティング・インスタンス、あるいは特殊なエッジ・コンピューティング・デバイスなど。
モニタリング： モデルモニタリングのためのツールとプロセスは、パフォーマンス、レイテンシー、エラー、潜在的なデータドリフトを追跡し、提供されたモデルが長期にわたって有効であることを確認する。

モデルのデプロイメント対モデルのサービング

Model DeploymentとModel Servingという用語はしばしば関連していますが、同一ではありません。モデルデプロイメントとは、学習済みのモデルを利用可能にするという、より広い概念である。これには、モデルをアプリケーションに直接埋め込む、オフライン推論のためにエッジデバイスにデプロイする、定期的に予測を実行するバッチ処理パイプラインをセットアップするなど、さまざまな戦略が含まれます。ニーズに応じて、さまざまなモデル展開オプションを検討することができます。

モデルサービングとは、通常API経由でアクセス可能なネットワークサービスとしてモデルをデプロイすることを指し、オンデマンド、多くの場合リアルタイムの予測リクエストを処理するために設計されています。これは、スケーラビリティと低レイテンシを考慮し、継続的な推論機能を提供することに重点を置いた、特定のタイプのモデル展開です。即時の予測を必要とする多くのインタラクティブなアプリケーションでは、モデルサービングは好ましい展開方法です。

モデル・サービング

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

モデルサーブの重要性

実世界での応用

モデル給仕の主な構成要素

モデルのデプロイメント対モデルのサービング

ブログをもっと読む

Ultralytics コミュニティに参加する

モデル・サービング

Ultralytics HUB でを使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

モデルサーブの重要性

実世界での応用

モデル給仕の主な構成要素

モデルのデプロイメント対モデルのサービング

ブログをもっと読む

Ultralytics コミュニティに参加する

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。