NLP、時系列分析、視覚AIのAI/MLモデルを強化し、予測と精度を向上させるコンテキスト・ウィンドウの仕組みをご覧ください。
コンテキスト・ウィンドウとは、機械学習(ML)モデルがテキストや時系列情報などの逐次データを処理する際に考慮する、先行する(場合によっては後続する)情報の有限スパンを指す。これは、シーケンスの任意の時点におけるモデルの焦点、または短期記憶と考える。この概念は、モデルが関係を理解し、予測を行い、関連する出力を生成するために、どれだけのコンテキストを活用できるかを定義するため、非常に重要である。コンテキストウィンドウのサイズは、モデルがデータ内の依存関係を把握する能力に直接影響し、そのパフォーマンスと計算要件の両方に影響を及ぼします(多くの場合、Ultralytics HUBのようなプラットフォームで管理されます)。
コンテキスト・ウィンドウは、自然言語処理(NLP)の基本概念である。BERTや GPTなどのアーキテクチャを支えるトランスフォーマーのようなモデルは、コンテキストウィンドウに大きく依存している。これらのモデルでは、コンテキスト・ウィンドウは、特定のトークンを処理する際に、先行するトークン(単語やサブワード)をいくつ考慮するかを決定する。コンテキストウィンドウを大きくすることで、モデルはテキスト内のより長い範囲の依存関係を理解できるようになり、OpenAIのGPT-4のような高度なモデルに見られるように、より首尾一貫した、コンテキストを意識した出力につながる可能性がある。Attention Is All You Need」のような研究論文では、コンテキストを処理するのに有効なアーキテクチャが紹介されている。しかし、ウィンドウを大きくすると、モデルの学習や 推論時の計算負荷やメモリ使用量も大幅に増加する。
自然言語処理(NLP)で最もよく議論されるが、コンテキストウィンドウの考え方は、コンピュータビジョン(CV)、特にビデオストリームや画像シーケンスを分析する場合にも適用できる。例えば、物体の追跡では、物体の軌跡をより良く予測し、オクルージョンを処理するために、連続する複数のフレームのコンテキストウィンドウをモデルが使用することがある。この時間的コンテキストは、時間経過に伴うトラッキングの一貫性を維持するのに役立ちます。Ultralytics YOLO モデルは、主にリアルタイムの物体検出で知られていますが、ビデオ解析のようなタスクにコンテキストウィンドウを利用するシステムに統合することができ、単一フレーム処理以上の機能を強化することができます。トラッキングアルゴリズムにYOLO 統合するなどの高度なビジョンアプリケーションの例については、Ultralytics ソリューションをご覧ください。
コンテキスト・ウィンドウの概念は、多くのAIアプリケーションに不可欠である:
適切なコンテキスト・ウィンドウのサイズを選択することは、トレードオフを伴う。より大きなウィンドウは、より多くのコンテキストを捉え、モデルの精度を向上させる可能性がある。しかし、より多くのメモリと計算能力を必要とし、学習と推論が遅くなる可能性がある。Transformer-XLのような技術は、より長いコンテキストをより効率的に扱うことを目的としている。
コンテキストウィンドウを関連用語と区別することは有用である:
以下のようなフレームワーク PyTorch( PyTorch 公式サイト経由)や TensorFlow(TensorFlow 公式サイトに詳細あり)は、コンテキストウィンドウが重要なパラメータとなるモデルを構築するためのツールを提供する。特に、リカレントニューラルネットワーク(RNN)やトランスフォーマーのようなシーケンシャルなデータ構造を扱う場合だ。効率的なモデルの展開には、コンテキストの取り扱いを最適化する必要があります。