Glossário

Tokenização

Descubra o poder da tokenização em NLP e ML! Saiba como a divisão do texto em tokens melhora as tarefas de IA, como a análise de sentimentos e a geração de texto.

A tokenização é o processo fundamental de dividir um fluxo de dados, como um texto bruto ou uma imagem, em unidades menores e discretas chamadas tokens. Este é um primeiro passo crítico no pipeline de pré-processamento de dados para quase todos os sistemas de Inteligência Artificial (IA). Ao converter dados não estruturados num formato padronizado, a tokenização permite que os modelos de aprendizagem automática interpretem, analisem e aprendam padrões de forma eficaz. Sem essa etapa, a maioria dos modelos não seria capaz de processar os dados vastos e variados que alimentam os aplicativos modernos de IA.

Relevância e aplicações no mundo real

A tokenização é crucial porque a maioria das arquitecturas de aprendizagem profunda requerem dados numéricos em vez de texto em bruto ou pixéis. Ao converter dados em tokens discretos, podemos então mapear esses tokens para representações numéricas, como embeddings. Estes vectores numéricos captam o significado semântico e as relações, permitindo que os modelos criados com estruturas como o PyTorch ou o TensorFlow aprendam com os dados. Este passo fundamental está na base de inúmeras aplicações de IA:

  1. Processamento de linguagem natural (NLP): A tokenização é fundamental para quase todas as tarefas de NLP.

    • Tradução automática: Serviços como o Google Translate identificam a frase de entrada na língua de partida, processam esses tokens utilizando modelos complexos (muitas vezes baseados na arquitetura Transformer ) e, em seguida, geram tokens na língua de chegada, que são finalmente reunidos na frase traduzida.
    • Análise de sentimento: Para determinar se uma avaliação de cliente é positiva ou negativa, o texto é primeiro tokenizado. Em seguida, o modelo analisa esses tokens para classificar o sentimento geral. Saiba mais sobre a análise de sentimento. Técnicas como o ajuste de prompt também dependem da manipulação de sequências de tokens. Para os desenvolvedores, bibliotecas como spaCy e NLTK oferecem ferramentas poderosas de tokenização.
  2. Visão por computador (CV): Embora tradicionalmente associado à PNL, o conceito estende-se à visão computacional.

Métodos comuns de tokenização

Existem diferentes estratégias para a tokenização de dados, cada uma com as suas próprias vantagens e desvantagens. A escolha do método pode afetar significativamente o desempenho do modelo.

  • Tokenização baseada em palavras: Este método divide o texto com base em espaços e pontuação. Embora simples e intuitivo, tem dificuldades com grandes vocabulários e palavras "fora do vocabulário" (palavras não vistas durante o treino).
  • Tokenização baseada em caracteres: Este método divide o texto em caracteres individuais. Resolve o problema da falta de vocabulário, mas pode resultar em sequências muito longas que perdem o significado semântico de alto nível, tornando mais difícil para os modelos aprenderem as relações entre as palavras.
  • Tokenização de subpalavras: Esta é uma abordagem híbrida que se tornou o padrão para os modelos modernos de PNL. Divide as palavras em subunidades mais pequenas e significativas. As palavras comuns permanecem como tokens únicos, enquanto as palavras raras são divididas em múltiplos tokens de subpalavras. Este método lida eficazmente com palavras complexas e evita o problema da falta de vocabulário. Os algoritmos mais populares incluem o Byte Pair Encoding (BPE) e o WordPiece, que são utilizados em modelos como o BERT e o GPT.

Tokenização vs. Tokens

É importante distinguir entre "Tokenização" e um"Token".

  • Tokenização: Refere-se ao processo de dividir os dados em unidades mais pequenas. É um passo de pré-processamento que é fundamental para o funcionamento dos modelos de linguagem.
  • Token: Refere-se ao resultado do processo de tokenização - a unidade individual (palavra, subpalavra, carácter ou fragmento de imagem) que o modelo processa.

Entender a tokenização é fundamental para compreender como os modelos de IA interpretam e aprendem com diversos tipos de dados. O gerenciamento de conjuntos de dados e modelos de treinamento geralmente envolve plataformas como o Ultralytics HUB, que ajudam a simplificar o pré-processamento de dados e os fluxos de trabalho de treinamento de modelos. À medida que a IA evolui, os métodos de tokenização continuam a adaptar-se, desempenhando um papel fundamental na construção de modelos mais sofisticados para tarefas que vão desde a geração de texto até à compreensão visual complexa em áreas como os veículos autónomos e a análise de imagens médicas.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência