用語集

コンテキスト・ウィンドウ

NLP、時系列分析、視覚AIのAI/MLモデルを強化し、予測と精度を向上させるコンテキスト・ウィンドウの仕組みをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

コンテキスト・ウィンドウとは、機械学習モデルがテキストや時系列情報などの逐次データを処理する際に考慮する、先行する(場合によっては後続する)情報の有限スパンを指す。これは、シーケンスの任意の時点におけるモデルのフォーカス、または短期記憶と考える。この概念は、モデルが関係を理解し、予測を行い、関連する出力を生成するために、どれだけのコンテキストを活用できるかを定義するため、非常に重要である。コンテキスト・ウィンドウのサイズは、モデルがデータ内の依存関係を把握する能力に直接影響し、そのパフォーマンスと計算要件の両方に影響を与えます。

自然言語処理(NLP)におけるコンテクストウィンドウ

コンテキスト・ウィンドウは、自然言語処理(NLP)の基本概念である。BERTや GPTなどのアーキテクチャを支えるトランスフォーマーのようなモデルは、コンテキストウィンドウに大きく依存している。これらのモデルでは、コンテキスト・ウィンドウは、特定のトークンを処理する際に、先行するトークン(単語やサブワード)をいくつ考慮するかを決定する。コンテキスト・ウィンドウを大きくすることで、OpenAIのGPT-4のような高度なモデルに見られるように、モデルはテキスト内のより長い範囲の依存関係を理解することができ、より首尾一貫した、コンテキストを意識した出力につながる可能性があります。しかし、ウィンドウを大きくすると、学習や推論時の計算負荷やメモリ使用量も増加します。

ビジョンAIにおけるコンテキスト・ウィンドウ

自然言語処理(NLP)で最もよく議論されるが、コンテキストウィンドウの考え方は、コンピュータビジョン(CV)、特にビデオストリームや画像シーケンスを分析する場合にも適用できる。例えば、物体の追跡では、物体の軌跡をより良く予測し、オクルージョンを処理するために、連続する複数のフレームのコンテキストウィンドウをモデルが使用するかもしれない。この時間的コンテキストはトラッキングの一貫性を維持するのに役立ちます。Ultralytics YOLO モデルは、主にリアルタイムの物体検出で知られていますが、ビデオ解析のようなタスクにコンテキストウィンドウを利用するシステムに統合することができ、単一フレーム処理以上の機能を強化することができます。高度なビジョンアプリケーションの例については、Ultralytics ソリューションをご覧ください。

実際のAI/MLアプリケーションにおけるコンテキストウィンドウの例

  • チャットボットとバーチャルアシスタント: チャットボットや バーチャルアシスタントのようなシステムは、コンテキストウィンドウを使って会話の最後の数回を記憶する。これにより、後続の質問を理解し、適切な回答を提供することができ、より自然なインタラクションが実現します。十分なコンテキストがないと、アシスタントはそれぞれのクエリを独立して扱い、バラバラの会話になる可能性がある。AIモデルの構築と展開には、Ultralytics HUBのようなプラットフォームを検討することができる。
  • 予測入力とオートコンプリート:携帯電話で文字を入力したり、検索エンジンを使ったりする際、予測テキスト・アルゴリズムは、最近入力された単語のコンテキスト・ウィンドウを分析し、次の単語を提案したり、フレーズを補完したりします。これは、膨大なテキストデータから学習された統計的パターンに依存し、直前の文脈を考慮して、可能性の高い継続を提案する。次のようなフレームワーク PyTorchTensorFlowなどのフレームワークがよく使われる。

コンテキストウィンドウとその他の関連用語

  • コンテキスト・ウィンドウ vs. シーケンス長:シーケンスの長さとは、モデルに提供される入力シーケンス全体のトークンの総数を指します。しかし、コンテキスト・ウィンドウは、モデルが特定の要素の予測を行うために積極的に使用する、そのシーケンスの特定の(多くの場合、より小さい)部分です。例えば、ある文書のシーケンスの長さは1000トークンかもしれないが、モデルはターゲットとなる単語の周りの128トークンのコンテキストウィンドウしか使わないかもしれない。Hugging Face Transformersライブラリは、シーケンスとコンテキストウィンドウを扱うためのツールを提供します。
  • コンテキスト・ウィンドウと受容野の比較: 畳み込みニューラルネットワーク(CNN)では、受容野は特定のニューロンの活性化に影響を与える入力画像の空間的範囲を表す。どちらの用語も考慮される入力の範囲に関係するが、受容野はCNNの空間領域に特有であるのに対し、コンテキスト・ウィンドウは通常、リカレント・ニューラル・ネットワーク(RNN)やトランスフォーマーを含むさまざまなモデル・アーキテクチャのシーケンシャル領域(時間やテキストの位置など)を指す。モデルアーキテクチャの詳細については、Ultralytics モデルのドキュメントを参照してください。
すべて読む