Glossário

Tokenização

Descobre o poder da tokenização em NLP e ML! Aprende como dividir o texto em tokens melhora as tarefas de IA, como a análise de sentimentos e a geração de texto.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A tokenização é uma etapa fundamental de pré-processamento em Inteligência Artificial (IA) e Aprendizagem Automática (AM), particularmente vital no Processamento de Linguagem Natural (PLN). Envolve a decomposição de sequências de texto ou outros dados em unidades mais pequenas e geríveis, denominadas tokens. Estes tokens servem como blocos de construção básicos que os algoritmos utilizam para compreender e processar a informação, transformando a entrada bruta, como frases ou parágrafos, num formato adequado para análise por modelos de aprendizagem automática. Este processo é essencial porque os computadores não entendem o texto da mesma forma que os humanos; precisam de dados estruturados em partes discretas.

Como funciona a Tokenização

A ideia central da tokenização é a segmentação. Para dados de texto, isto significa normalmente dividir frases em palavras, subpalavras ou mesmo caracteres individuais com base em regras predefinidas ou padrões aprendidos. Por exemplo, a fraseUltralytics YOLO11 is powerful" pode ser dividida em palavras individuais: ["Ultralytics", "YOLO11", "is", "powerful"]. O método específico escolhido depende em grande medida da tarefa e da arquitetura do modelo utilizado.

As técnicas comuns incluem a divisão do texto com base no espaço em branco e na pontuação. No entanto, são frequentemente necessários métodos mais avançados, especialmente para lidar com grandes vocabulários ou palavras não vistas durante a formação. Técnicas como Byte Pair Encoding (BPE) ou WordPiece dividem as palavras em unidades de subpalavras mais pequenas. Estas são frequentemente utilizadas em Modelos de Linguagem de Grande Porte (LLMs) como o BERT e o GPT-4 para gerir eficazmente o tamanho do vocabulário e lidar com palavras desconhecidas. A escolha da estratégia de tokenização pode ter um impacto significativo no desempenho do modelo e na eficiência computacional.

Relevância e aplicações no mundo real

A tokenização é crucial porque a maioria dos modelos de ML, especialmente as arquitecturas de aprendizagem profunda, requerem entradas numéricas em vez de texto em bruto. Ao converter texto em tokens discretos, podemos então mapear esses tokens para representações numéricas, como embeddings. Estes vectores numéricos captam o significado semântico e as relações, permitindo que os modelos criados com estruturas como PyTorch ou TensorFlow aprendam padrões a partir dos dados. Este passo fundamental está na base de inúmeras aplicações de IA:

  1. Processamento de linguagem natural (NLP): A tokenização é fundamental para quase todas as tarefas de NLP.

    • Tradução automática: Serviços como o Google Translate fazem tokens da frase de entrada na língua de origem, processam esses tokens utilizando modelos complexos (muitas vezes baseados na arquitetura Transformer ) e, em seguida, geram tokens na língua de destino, que são finalmente reunidos na frase traduzida.
    • Análise de sentimento: Para determinar se uma avaliação de cliente é positiva ou negativa, o texto é primeiro tokenizado. Em seguida, o modelo analisa esses tokens (e suas representações numéricas) para classificar o sentimento geral. Saiba mais sobre a análise de sentimento. Técnicas como o ajuste de prompt também dependem da manipulação de sequências de tokens.
  2. Visão por computador (CV): Embora tradicionalmente associado à PNL, o conceito estende-se à Visão por Computador (CV).

    • Transformadores de visão (ViT): Em modelos como o Vision Transformers (ViT), as imagens são divididas em fragmentos de tamanho fixo. Estas manchas são tratadas como "símbolos visuais" e transformadas em sequências. Estas sequências são depois introduzidas numa rede Transformer, que utiliza mecanismos como a auto-atenção para compreender as relações entre diferentes partes da imagem, à semelhança da forma como os tokens de texto são processados na PNL. Isto permite tarefas como a classificação de imagens e a deteção de objectos. Modelos como o Segment Anything Model (SAM) também utilizam conceitos do tipo token para a segmentação de imagens.
    • Modelos multimodais: Modelos como o CLIP e o YOLO fazem a ponte entre a visão e a linguagem, processando tanto os tokens de texto como os tokens visuais (ou caraterísticas de imagem) para realizar tarefas como a deteção de objectos com base em descrições de texto.

Tokenização vs. Tokens

É importante distinguir entre "Tokenização" e um"Token".

  • Tokenização: Refere-se ao processo de dividir os dados em unidades mais pequenas. É uma etapa de pré-processamento.
  • Token: Refere-se ao resultado do processo de tokenização - a unidade individual (palavra, subpalavra, carácter ou fragmento de imagem) que o modelo processa.

Entender a tokenização é fundamental para compreender como os modelos de IA interpretam e aprendem com diversos tipos de dados. O gerenciamento de conjuntos de dados e modelos de treinamento geralmente envolve plataformas como o Ultralytics HUB, que ajudam a simplificar o pré-processamento de dados e os fluxos de trabalho de treinamento de modelos, geralmente envolvendo dados tokenizados implícita ou explicitamente. À medida que a IA evolui, os métodos de tokenização continuam a adaptar-se, desempenhando um papel fundamental na construção de modelos mais sofisticados para tarefas que vão desde a geração de texto até à compreensão visual complexa em áreas como os veículos autónomos e a análise de imagens médicas.

Lê tudo