Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Token

Saiba como os tokens funcionam como unidades fundamentais de informação na IA. Explore o seu papel na NLP, visão computacional e detecção de vocabulário aberto com o YOLO26.

Na sofisticada arquitetura da inteligência artificial moderna, um token representa a unidade atómica fundamental de informação que um modelo processa. Antes que um algoritmo possa interpretar uma frase, analisar um script de software ou reconhecer objetos numa imagem, os dados brutos de entrada devem ser divididos nesses elementos discretos e padronizados. Essa segmentação é uma etapa fundamental no pré-processamento de dados, transformando entradas não estruturadas em um formato numérico que as redes neurais podem computar com eficiência. Enquanto os seres humanos percebem a linguagem como um fluxo contínuo de pensamentos ou imagens como cenas visuais contínuas, os modelos computacionais requerem esses blocos de construção granulares para realizar operações como reconhecimento de padrões e análise semântica.

Token vs. Tokenização

Para compreender a mecânica da aprendizagem automática, é essencial distinguir entre a unidade de dados e o processo utilizado para criá-la. Essa diferenciação evita confusão ao projetar pipelines de dados e preparar material de treinamento na Ultralytics .

  • Tokenização: Este é o processo algorítmico (o verbo) de dividir dados brutos em partes. Para texto, isso pode envolver o uso de bibliotecas como o Natural Language Toolkit (NLTK) para determinar onde uma unidade termina e outra começa.
  • Token: É o resultado final (o substantivo). É o pedaço real de dados — como uma palavra, uma subpalavra ou um fragmento de imagem — que acaba por ser mapeado para um vetor numérico conhecido como embedding.

Tokens em diferentes domínios de IA

A natureza de um token varia significativamente dependendo da modalidade dos dados que estão a ser processados, particularmente entre domínios textuais e visuais.

Tokens de texto em PNL

No campo do Processamento de Linguagem Natural (NLP), os tokens são as entradas para os Modelos de Linguagem de Grande Porte (LLMs). As abordagens iniciais mapeavam estritamente palavras inteiras, mas as arquiteturas modernas utilizam algoritmos de subpalavras, como Byte Pair Encoding (BPE). Esse método permite que os modelos tratem palavras raras, dividindo-as em sílabas significativas, equilibrando o tamanho do vocabulário com a cobertura semântica. Por exemplo, a palavra "unhappiness" (infelicidade) pode ser tokenizada em "un", "happi" e "ness".

Tokens visuais na visão computacional

O conceito de tokenização expandiu-se para a visão computacional com o advento do Vision Transformer (ViT). Ao contrário das redes convolucionais tradicionais que processam pixels em janelas deslizantes, os Transformers dividem uma imagem numa grelha de patches de tamanho fixo (por exemplo, 16x16 pixels). Cada patch é achatado e tratado como um token visual distinto. Essa abordagem permite que o modelo use mecanismos de autoatenção para compreender a relação entre partes distantes de uma imagem, semelhante à forma como a Google originalmente aplicou transformadores ao texto.

Aplicações no Mundo Real

Os tokens atuam como uma ponte entre os dados humanos e a inteligência artificial em inúmeras aplicações.

  1. Detecção de objetos com vocabulário aberto: Modelos avançados como o YOLO utilizam uma abordagem multimodal, na qual tokens de texto interagem com recursos visuais. O utilizador pode inserir prompts de texto personalizados (por exemplo, «capacete azul»), que o modelo tokeniza e compara com objetos na imagem. Isso permite o aprendizado zero-shot, possibilitando a detecção de objetos nos quais o modelo não foi explicitamente treinado.
  2. IA generativa: Em sistemas de geração de texto, como chatbots, a IA opera prevendo a probabilidade do próximo token numa sequência. Ao selecionar iterativamente o token subsequente mais provável , o sistema constrói frases e parágrafos coerentes, alimentando ferramentas que vão desde o suporte automatizado ao cliente até assistentes virtuais.

Python : usando tokens de texto para detecção

O seguinte trecho de código demonstra como o ultralytics O pacote usa tokens de texto para orientar deteção de objectos. Embora a tecnologia de ponta YOLO26 é recomendado para inferência de alta velocidade e classe fixa, a arquitetura YOLO permite que os utilizadores definam classes como tokens de texto em tempo de execução.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

Compreender os tokens é fundamental para navegar no panorama da IA generativa e da análise avançada. Seja para permitir que um chatbot converse fluentemente ou para ajudar um sistema de visão a distinguir entre classes de objetos subtis, os tokens continuam a ser a moeda essencial da inteligência artificial utilizada por estruturas como PyTorch e TensorFlow.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora