Descobre o poder da tokenização em NLP e ML! Aprende como dividir o texto em tokens melhora as tarefas de IA, como a análise de sentimentos e a geração de texto.
A tokenização é uma etapa fundamental de pré-processamento em Inteligência Artificial (IA) e Aprendizagem Automática (AM), particularmente vital no Processamento de Linguagem Natural (PLN). Envolve a decomposição de sequências de texto ou outros dados em unidades mais pequenas e geríveis, denominadas tokens. Estes tokens servem como blocos de construção básicos que os algoritmos utilizam para compreender e processar a informação, transformando a entrada bruta, como frases ou parágrafos, num formato adequado para análise por modelos de aprendizagem automática. Este processo é essencial porque os computadores não entendem o texto da mesma forma que os humanos; precisam de dados estruturados em partes discretas.
A ideia central da tokenização é a segmentação. Para dados de texto, isto significa normalmente dividir frases em palavras, subpalavras ou mesmo caracteres individuais com base em regras predefinidas ou padrões aprendidos. Por exemplo, a fraseUltralytics YOLO11 is powerful" pode ser dividida em palavras individuais: ["Ultralytics", "YOLO11", "is", "powerful"]
. O método específico escolhido depende em grande medida da tarefa e da arquitetura do modelo utilizado.
As técnicas comuns incluem a divisão do texto com base no espaço em branco e na pontuação. No entanto, são frequentemente necessários métodos mais avançados, especialmente para lidar com grandes vocabulários ou palavras não vistas durante a formação. Técnicas como Byte Pair Encoding (BPE) ou WordPiece dividem as palavras em unidades de subpalavras mais pequenas. Estas são frequentemente utilizadas em Modelos de Linguagem de Grande Porte (LLMs) como o BERT e o GPT-4 para gerir eficazmente o tamanho do vocabulário e lidar com palavras desconhecidas. A escolha da estratégia de tokenização pode ter um impacto significativo no desempenho do modelo e na eficiência computacional.
A tokenização é crucial porque a maioria dos modelos de ML, especialmente as arquitecturas de aprendizagem profunda, requerem entradas numéricas em vez de texto em bruto. Ao converter texto em tokens discretos, podemos então mapear esses tokens para representações numéricas, como embeddings. Estes vectores numéricos captam o significado semântico e as relações, permitindo que os modelos criados com estruturas como PyTorch ou TensorFlow aprendam padrões a partir dos dados. Este passo fundamental está na base de inúmeras aplicações de IA:
Processamento de linguagem natural (NLP): A tokenização é fundamental para quase todas as tarefas de NLP.
Visão por computador (CV): Embora tradicionalmente associado à PNL, o conceito estende-se à Visão por Computador (CV).
É importante distinguir entre "Tokenização" e um"Token".
Entender a tokenização é fundamental para compreender como os modelos de IA interpretam e aprendem com diversos tipos de dados. O gerenciamento de conjuntos de dados e modelos de treinamento geralmente envolve plataformas como o Ultralytics HUB, que ajudam a simplificar o pré-processamento de dados e os fluxos de trabalho de treinamento de modelos, geralmente envolvendo dados tokenizados implícita ou explicitamente. À medida que a IA evolui, os métodos de tokenização continuam a adaptar-se, desempenhando um papel fundamental na construção de modelos mais sofisticados para tarefas que vão desde a geração de texto até à compreensão visual complexa em áreas como os veículos autónomos e a análise de imagens médicas.