用語集

ベクトル・データベース

ベクトルデータベースが、効率的な類似検索、意味検索、インテリジェントシステムの異常検知を可能にすることで、AIにどのような革命をもたらすかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

急速に発展する人工知能(AI)や機械学習(ML)の分野では、複雑で高次元の膨大なデータを効果的に管理・検索することが重要な課題となっています。ベクトルデータベースは、ベクトル埋め込みデータの大規模なコレクションの保存、インデックス付け、クエリ用に特別に設計されたソリューションを提供します。構造化データやキーワードの完全一致に最適化された従来のリレーショナルデータベースとは異なり、ベクトルデータベースは、テキスト、画像、音声などの非構造化データの数値表現を扱うことに優れており、強力な類似検索を可能にします。

ベクトル埋め込みを理解する

ベクトルデータベースの核となる概念はベクトル埋め込みである。エンベッディングとは、以下のようなMLモデルによって生成される密な数値ベクトルのことです。 Ultralytics YOLOのようなMLモデルや、自然言語処理(NLP)の BERTのようなモデルによって生成される高密度の数値ベクトルです。これらのベクトルは、元のデータの意味的な意味や主要な特徴を捉えます。例えば、似たような意味を持つ単語や似たような内容の画像は、高次元埋め込み空間において互いに近い位置にベクトルを持つことになる。この性質により、機械はデータ内の関係や文脈を理解することができる。

ベクター・データベースの仕組み

ベクトルデータベースは、このような高次元ベクトルを格納し、効率的な類似検索を行うために、多くの場合近似最近傍(ANN)検索に基づく特殊なインデックス作成アルゴリズムを採用しています。クエリ(ベクトルとして表現される)が送信されると、データベースはコサイン類似度や ユークリッド距離のような距離メトリックを使用して、クエリベクトルに最も類似する(最も近い)インデックス内のベクトルを素早く見つける。ベクトル検索として知られるこのプロセスは、現代の多くのAIアプリケーションの基本となっている。

AI/MLにおける関連性と応用

高速でスケーラブルな類似性検索が可能なベクターデータベースは、非構造化データを扱う数多くのAIタスクに不可欠である:

  • レコメンデーションシステムストリーミングサービスやeコマースサイトのようなプラットフォームは、ユーザーとアイテムをベクトルとして表現する。データベースは、(過去の行動に基づいて)ユーザーのベクトルと類似したベクトルを持つアイテムを見つけ出し、パーソナライズされたレコメンデーションを提供する。
  • セマンティック検索セマンティック検索は、キーワードのマッチングの代わりに、クエリの背後にある意図や文脈を理解する。ベクトルデータベースは、ベクトル埋め込みがクエリの埋め込みと意味的に類似している文書や情報を検索する。
  • ビジュアル検索と画像認識ユーザーは、別の画像をクエリとして使用して画像を検索することができます。データベースは、ベクトル埋め込みを比較することで、類似した視覚的特徴を持つ画像を見つける。よりスマートな小売在庫管理のためのAIは、しばしばこのような技術を活用している。
  • 異常検出正常なデータポイントのベクトルをクラスタリングすることで、ベクトルデータベースは、ベクトルがこれらのクラスタから大きく外れている異常値や異常を迅速に特定することができ、不正検出やシステム監視に役立つ。
  • 医用画像解析医用画像の埋め込みに基づき、過去の類似症例を見つけることで放射線科医を支援する。

ベクター・データベースの主な特徴

ベクターデータベースは、AIワークロードにいくつかの明確な利点を提供する:

  • 効率的な類似性探索:ANNアルゴリズムを用いて高次元空間の最近傍探索に最適化。
  • スケーラビリティ:低いクエリーレイテンシーを維持しながら、何十億ものベクトルを処理できるように設計されています。
  • メタデータのフィルタリング:類似検索と従来のメタデータフィルタを組み合わせることで、より洗練された検索結果を得ることができます。
  • 統合:多くの場合、以下のような一般的なMLフレームワークとの統合を提供します。 PyTorchTensorFlowUltralytics HUBのようなプラットフォームとの統合を提供することが多い。

ベクターデータベースと従来のデータベースの比較

従来のデータベース(SQLデータベースなど)は、構造化されたデータを行と列で保存し、特定のフィールドにインデックスを使用して完全一致するように最適化されている。これらのデータベースは、「類似性」という概念や、ベクトル埋め込みという高次元のデータとの格闘を強いられます。PineconeMilvusWeaviateのようなベクトルデータベースは、ベクトルデータのために構築されており、類似性検索を実現可能かつ効率的なスケールで行うための特別なインデックス作成とクエリ技術を使用しています。適切なタイプのデータベースを選択するかどうかは、データの性質とアプリケーションが必要とする主なクエリーパターンに大きく依存します。

結論として、ベクトルデータベースは、ベクトル埋め込みデータの効率的な処理とクエリを可能にする、最新のAIスタックの重要なコンポーネントである。これらのデータベースは、意味理解や類似検索などの強力な機能を解放し、物体検出分析から高度な推薦エンジンまで、幅広いアプリケーションの革新を促進する。

すべて読む