Saiba como os tokens funcionam como unidades fundamentais de informação na IA. Explore o seu papel na NLP, visão computacional e detecção de vocabulário aberto com o YOLO26.
Na sofisticada arquitetura da inteligência artificial moderna, um token representa a unidade atómica fundamental de informação que um modelo processa. Antes que um algoritmo possa interpretar uma frase, analisar um script de software ou reconhecer objetos numa imagem, os dados brutos de entrada devem ser divididos nesses elementos discretos e padronizados. Essa segmentação é uma etapa fundamental no pré-processamento de dados, transformando entradas não estruturadas em um formato numérico que as redes neurais podem computar com eficiência. Enquanto os seres humanos percebem a linguagem como um fluxo contínuo de pensamentos ou imagens como cenas visuais contínuas, os modelos computacionais requerem esses blocos de construção granulares para realizar operações como reconhecimento de padrões e análise semântica.
Para compreender a mecânica da aprendizagem automática, é essencial distinguir entre a unidade de dados e o processo utilizado para criá-la. Essa diferenciação evita confusão ao projetar pipelines de dados e preparar material de treinamento na Ultralytics .
A natureza de um token varia significativamente dependendo da modalidade dos dados que estão a ser processados, particularmente entre domínios textuais e visuais.
No campo do Processamento de Linguagem Natural (NLP), os tokens são as entradas para os Modelos de Linguagem de Grande Porte (LLMs). As abordagens iniciais mapeavam estritamente palavras inteiras, mas as arquiteturas modernas utilizam algoritmos de subpalavras, como Byte Pair Encoding (BPE). Esse método permite que os modelos tratem palavras raras, dividindo-as em sílabas significativas, equilibrando o tamanho do vocabulário com a cobertura semântica. Por exemplo, a palavra "unhappiness" (infelicidade) pode ser tokenizada em "un", "happi" e "ness".
O conceito de tokenização expandiu-se para a visão computacional com o advento do Vision Transformer (ViT). Ao contrário das redes convolucionais tradicionais que processam pixels em janelas deslizantes, os Transformers dividem uma imagem numa grelha de patches de tamanho fixo (por exemplo, 16x16 pixels). Cada patch é achatado e tratado como um token visual distinto. Essa abordagem permite que o modelo use mecanismos de autoatenção para compreender a relação entre partes distantes de uma imagem, semelhante à forma como a Google originalmente aplicou transformadores ao texto.
Os tokens atuam como uma ponte entre os dados humanos e a inteligência artificial em inúmeras aplicações.
O seguinte trecho de código demonstra como o ultralytics O pacote usa tokens de texto para orientar
deteção de objectos. Embora a tecnologia de ponta
YOLO26 é recomendado para inferência de alta velocidade e classe fixa,
a arquitetura YOLO permite que os utilizadores definam classes como tokens de texto em tempo de execução.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
Compreender os tokens é fundamental para navegar no panorama da IA generativa e da análise avançada. Seja para permitir que um chatbot converse fluentemente ou para ajudar um sistema de visão a distinguir entre classes de objetos subtis, os tokens continuam a ser a moeda essencial da inteligência artificial utilizada por estruturas como PyTorch e TensorFlow.