Glossário

Pesquisa Vetorial

Descobre como a pesquisa vetorial revoluciona a IA ao permitir a semelhança semântica na recuperação de dados para PNL, pesquisa visual, sistemas de recomendação e muito mais!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Pesquisa Vetorial é uma técnica poderosa utilizada na Inteligência Artificial (IA) e na Aprendizagem Automática (AM) para encontrar itens semanticamente semelhantes, em vez de apenas corresponderem a palavras-chave. Funciona representando pontos de dados - tais como documentos de texto, imagens, clips de áudio ou perfis de utilizador - como vectores numéricos chamados "embeddings". Estas incorporações captam o significado subjacente ou as caraterísticas dos dados. A pesquisa vetorial encontra então os vectores de um conjunto de dados que estão "mais próximos" de um determinado vetor de consulta num espaço de elevada dimensão, utilizando normalmente métricas de distância como a semelhança cosseno ou a distância euclidiana. Isto permite uma pesquisa mais matizada e consciente do contexto em comparação com os métodos tradicionais.

Como funciona a Pesquisa Vetorial

O processo envolve normalmente várias etapas fundamentais:

  1. Geração de incorporação: Os dados são convertidos em vectores de alta dimensão (embeddings) utilizando modelos pré-treinados de aprendizagem profunda (DL), como o BERT para texto ou o Vision Transformers (ViT) para imagens. Estes modelos são treinados em vastos conjuntos de dados para aprender representações significativas. Por exemplo, Ultralytics YOLO da Ultralytics, conhecidos principalmente pela deteção de objectos, também geram vectores de caraterísticas que podem ser adaptados a tarefas de pesquisa visual.
  2. Indexação: Os vectores gerados são armazenados e indexados numa base de dados de vectores especializada. Estas bases de dados são optimizadas para uma consulta eficiente de dados de elevada dimensão, utilizando frequentemente algoritmos ANN (Approximate Nearest Neighbor) como o HNSW (Hierarchical Navigable Small World) ou o ScaNN (Scalable Nearest Neighbors). As técnicas ANN trocam uma pequena quantidade de precisão por melhorias significativas de velocidade, tornando a pesquisa vetorial viável para grandes conjuntos de dados.
  3. Consulta: Quando é feita uma consulta de pesquisa (por exemplo, uma frase de texto ou uma imagem), esta é primeiro convertida no mesmo formato vetorial utilizando o mesmo modelo de incorporação.
  4. Cálculo da semelhança: A base de dados de vectores procura o seu índice para encontrar os vectores mais semelhantes ao vetor de consulta com base numa métrica de distância escolhida (por exemplo, semelhança de cosseno, distância euclidiana, produto escalar).
  5. Recupera: Os itens correspondentes aos vectores mais próximos são devolvidos como resultados da pesquisa.

Conceitos e tecnologias fundamentais

  • Embeddings vectoriais: Representações numéricas que captam o significado semântico. Os modelos aprendem-nas durante o treino em grandes conjuntos de dados como o ImageNet.
  • Bases de dados vectoriais: Sistemas como Pinecone, Weaviate, Milvus e Chroma DB foram concebidos para armazenar e consultar vectores.
  • Métricas de semelhança: Funções matemáticas (por exemplo, semelhança de cosseno, distância euclidiana) utilizadas para medir a "proximidade" entre vectores.
  • Vizinho mais próximo aproximado (ANN): Algoritmos que encontram eficientemente os vizinhos mais próximos prováveis, cruciais para o desempenho em grande escala. Bibliotecas como a Faiss (Facebook AI Similarity Search) fornecem implementações.
  • Redução da dimensionalidade: Técnicas como a PCA (Análise de Componentes Principais) podem por vezes ser utilizadas para reduzir as dimensões dos vectores, acelerando potencialmente a pesquisa à custa de alguma perda de informação.

Aplicações no mundo real

A pesquisa vetorial permite uma vasta gama de aplicações inteligentes:

  • Pesquisa semântica: Potenciar motores de pesquisa (como a PesquisaGoogle ) ou bases de conhecimento internas para compreender a intenção da consulta para além das palavras-chave. Por exemplo, pesquisar "ideias para um jantar saudável" pode devolver receitas de saladas, frango grelhado e taças de quinoa, mesmo que essas palavras exactas não estejam nos documentos, porque os seus vectores de incorporação têm um significado próximo.
  • Sistemas de recomendação: Plataformas como a Netflix ou o Spotify utilizam a pesquisa vetorial para encontrar itens (filmes, músicas, produtos) semelhantes aos que um utilizador gostou ou com os quais interagiu anteriormente, com base em semelhanças nas suas representações vectoriais.
  • Reconhecimento e pesquisade imagens: Encontrar imagens visualmente semelhantes (pesquisa inversa de imagens) ou identificar produtos em fotografias para comércio eletrónico. Esta é uma área de aplicação fundamental da Visão por Computador (CV).
  • Deteção de anomalias: Identificação de pontos de dados invulgares (por exemplo, transacções fraudulentas, intrusões na rede) cujos vectores se encontram longe dos grupos de vectores de dados normais.
  • Processamento de linguagem natural (PNL): Melhora aplicações como a resposta a perguntas, a deteção de duplicados e o agrupamento de dados de texto com base em tópicos ou sentimentos.
  • Geração Aumentada por Recuperação (RAG): Utilizado em modelos de linguagem de grande dimensão (LLM) para recuperar o contexto relevante de uma base de conhecimentos antes de gerar uma resposta, melhorando a exatidão factual e reduzindo as alucinações.

Pesquisa de vectores vs. Pesquisa de palavras-chave

A principal diferença reside na forma como a semelhança é determinada:

  • Pesquisa por palavra-chave: Corresponde a palavras ou frases exactas utilizando técnicas como índices invertidos. Tem dificuldade em lidar com sinónimos, contexto e variações de linguagem.
  • Pesquisa de vetores: Faz correspondências com base na semelhança semântica capturada em incorporações vetoriais. Consegue encontrar resultados relevantes mesmo que as palavras-chave exactas não correspondam, compreendendo a intenção ou o conceito subjacente.

Embora a pesquisa vetorial ofereça resultados mais matizados, requer recursos computacionais significativos para a geração e indexação de incorporações, muitas vezes geridos de forma eficiente através de plataformas como o Ultralytics HUB para a gestão de modelos e conjuntos de dados. Os sistemas modernos combinam frequentemente a pesquisa por palavra-chave e a pesquisa vetorial (pesquisa híbrida) para tirar partido dos pontos fortes de cada abordagem. Podes explorar vários tutoriais e guias para compreender como os conceitos relacionados, como a implementação de modelos e as métricas de desempenho, se aplicam a estes sistemas.

Lê tudo