Glossário

Tokenização

Descubra o poder da tokenização em NLP e ML! Saiba como a divisão do texto em tokens melhora as tarefas de IA, como a análise de sentimentos e a geração de texto.

A tokenização é o processo fundamental de dividir um fluxo de dados, como um texto bruto ou uma imagem, em unidades menores e discretas chamadas tokens. Este é um primeiro passo crítico no pipeline de pré-processamento de dados para quase todos os sistemas de Inteligência Artificial (IA). Ao converter dados não estruturados num formato padronizado, a tokenização permite que os modelos de aprendizagem automática interpretem, analisem e aprendam padrões de forma eficaz. Sem essa etapa, a maioria dos modelos não seria capaz de processar os dados vastos e variados que alimentam os aplicativos modernos de IA.

Relevância e aplicações no mundo real

A tokenização é crucial porque a maioria das arquitecturas de aprendizagem profunda requerem dados numéricos em vez de texto em bruto ou pixéis. Ao converter dados em tokens discretos, podemos então mapear esses tokens para representações numéricas, como embeddings. Estes vectores numéricos captam o significado semântico e as relações, permitindo que os modelos criados com estruturas como o PyTorch ou o TensorFlow aprendam com os dados. Este passo fundamental está na base de inúmeras aplicações de IA:

Processamento de linguagem natural (NLP): A tokenização é fundamental para quase todas as tarefas de NLP.
- Tradução automática: Serviços como o Google Translate identificam a frase de entrada na língua de partida, processam esses tokens utilizando modelos complexos (muitas vezes baseados na arquitetura Transformer ) e, em seguida, geram tokens na língua de chegada, que são finalmente reunidos na frase traduzida.
- Análise de sentimento: Para determinar se uma avaliação de cliente é positiva ou negativa, o texto é primeiro tokenizado. Em seguida, o modelo analisa esses tokens para classificar o sentimento geral. Saiba mais sobre a análise de sentimento. Técnicas como o ajuste de prompt também dependem da manipulação de sequências de tokens. Para os desenvolvedores, bibliotecas como spaCy e NLTK oferecem ferramentas poderosas de tokenização.
Visão por computador (CV): Embora tradicionalmente associado à PNL, o conceito estende-se à visão computacional.
- Transformadores de visão (ViT): Em modelos como o Vision Transformers (ViT), as imagens são divididas em fragmentos de tamanho fixo. Tal como explicado no artigo de investigação original sobre o ViT, estas manchas são tratadas como "símbolos visuais" e transformadas em sequências. Estas sequências são depois introduzidas numa rede Transformer, que utiliza mecanismos como a auto-atenção para compreender as relações entre diferentes partes da imagem. Isto permite tarefas como a classificação de imagens e a deteção de objectos.
- Modelos multimodais: Modelos como o CLIP e o YOLO-World fazem a ponte entre a visão e a linguagem, processando tanto tokens de texto como tokens visuais para realizar tarefas como a deteção de objectos de tiro zero. Do mesmo modo, os modelos avançados de segmentação de imagens, como o Segment Anything Model (SAM), também utilizam conceitos do tipo token.

Métodos comuns de tokenização

Existem diferentes estratégias para a tokenização de dados, cada uma com as suas próprias vantagens e desvantagens. A escolha do método pode afetar significativamente o desempenho do modelo.

Tokenização baseada em palavras: Este método divide o texto com base em espaços e pontuação. Embora simples e intuitivo, tem dificuldades com grandes vocabulários e palavras "fora do vocabulário" (palavras não vistas durante o treino).
Tokenização baseada em caracteres: Este método divide o texto em caracteres individuais. Resolve o problema da falta de vocabulário, mas pode resultar em sequências muito longas que perdem o significado semântico de alto nível, tornando mais difícil para os modelos aprenderem as relações entre as palavras.
Tokenização de subpalavras: Esta é uma abordagem híbrida que se tornou o padrão para os modelos modernos de PNL. Divide as palavras em subunidades mais pequenas e significativas. As palavras comuns permanecem como tokens únicos, enquanto as palavras raras são divididas em múltiplos tokens de subpalavras. Este método lida eficazmente com palavras complexas e evita o problema da falta de vocabulário. Os algoritmos mais populares incluem o Byte Pair Encoding (BPE) e o WordPiece, que são utilizados em modelos como o BERT e o GPT.

Tokenização vs. Tokens

É importante distinguir entre "Tokenização" e um"Token".

Tokenização: Refere-se ao processo de dividir os dados em unidades mais pequenas. É um passo de pré-processamento que é fundamental para o funcionamento dos modelos de linguagem.
Token: Refere-se ao resultado do processo de tokenização - a unidade individual (palavra, subpalavra, carácter ou fragmento de imagem) que o modelo processa.

Entender a tokenização é fundamental para compreender como os modelos de IA interpretam e aprendem com diversos tipos de dados. O gerenciamento de conjuntos de dados e modelos de treinamento geralmente envolve plataformas como o Ultralytics HUB, que ajudam a simplificar o pré-processamento de dados e os fluxos de trabalho de treinamento de modelos. À medida que a IA evolui, os métodos de tokenização continuam a adaptar-se, desempenhando um papel fundamental na construção de modelos mais sofisticados para tarefas que vão desde a geração de texto até à compreensão visual complexa em áreas como os veículos autónomos e a análise de imagens médicas.

Tokenização

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Treine modelos YOLO de forma simples com o Ultralytics HUB

Relevância e aplicações no mundo real

Métodos comuns de tokenização

Tokenização vs. Tokens

Ler mais nesta categoria

Guia ERP para a indústria transformadora

Sistema de execução do fabrico (MES): Produção orientada para a IA

Compreender o fabrico aditivo: Tecnologia e casos de utilização

Junte-se à comunidade Ultralytics