Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Token

Descubra cómo los tokens sirven como unidades fundamentales de información en la IA. Explore su papel en el procesamiento del lenguaje natural, la visión artificial y la detección de vocabulario abierto con YOLO26.

En la sofisticada arquitectura de la inteligencia artificial moderna , un token representa la unidad atómica fundamental de información que procesa un modelo. Antes de que un algoritmo pueda interpretar una oración, analizar un script de software o reconocer objetos en una imagen, los datos de entrada sin procesar deben desglosarse en estos elementos discretos y estandarizados. Esta segmentación es un paso fundamental en el preprocesamiento de datos, ya que transforma las entradas no estructuradas en un formato numérico que las redes neuronales pueden calcular de manera eficiente. Mientras que los seres humanos percibimos el lenguaje como un flujo continuo de pensamientos o imágenes como escenas visuales sin fisuras, los modelos computacionales necesitan estos bloques de construcción granulares para realizar operaciones como el reconocimiento de patrones y el análisis semántico.

Token frente a Tokenización

Para comprender la mecánica del aprendizaje automático, es esencial distinguir entre la unidad de datos y el proceso utilizado para crearla. Esta diferenciación evita confusiones a la hora de diseñar flujos de datos y preparar material de formación en Ultralytics .

  • Tokenización: Este es el proceso algorítmico (el verbo) de dividir los datos sin procesar en fragmentos. En el caso del texto, esto puede implicar el uso de bibliotecas como el Natural Language Toolkit (NLTK) para determinar dónde termina una unidad y comienza otra .
  • Token: Es el resultado final (el sustantivo). Es el fragmento real de datos, como una palabra, una subpalabra o un fragmento de imagen, que finalmente se asigna a un vector numérico conocido como incrustación.

Tokens en diferentes dominios de IA

La naturaleza de un token varía significativamente dependiendo de la modalidad de los datos que se procesan, en particular entre los dominios textual y visual.

Tokens de texto en PNL

En el campo del procesamiento del lenguaje natural (NLP), los tokens son las entradas para los modelos de lenguaje grandes (LLM). Los primeros enfoques se basaban estrictamente en palabras completas, pero las arquitecturas modernas utilizan algoritmos de subpalabras como la codificación de pares de bytes (BPE). Este método permite a los modelos manejar palabras poco frecuentes dividiéndolas en sílabas significativas, lo que equilibra el tamaño del vocabulario con la cobertura semántica. Por ejemplo, la palabra «unhappiness» (infelicidad) podría tokenizarse en «un», «happi» y «ness».

Fichas visuales en visión por ordenador

El concepto de tokenización se ha expandido a la visión por ordenador con la llegada del Vision Transformer (ViT). A diferencia de las redes convolucionales tradicionales que procesan píxeles en ventanas deslizantes, los Transformers dividen una imagen en una cuadrícula de parches de tamaño fijo (por ejemplo, 16x16 píxeles). Cada parche se aplana y se trata como un token visual distinto. Este enfoque permite al modelo utilizar mecanismos de autoatención para comprender la relación entre partes distantes de una imagen, de forma similar a cómo Google aplicó originalmente los transformadores al texto.

Aplicaciones en el mundo real

Los tokens actúan como puente entre los datos humanos y la inteligencia artificial en innumerables aplicaciones.

  1. Detección de objetos con vocabulario abierto: Los modelos avanzados como YOLO utilizan un enfoque multimodal en el que los tokens de texto interactúan con las características visuales. El usuario puede introducir indicaciones de texto personalizadas (por ejemplo, «casco azul»), que el modelo tokeniza y compara con los objetos de la imagen. Esto permite el aprendizaje sin disparos, lo que permite la detección de objetos para los que el modelo no ha sido entrenado explícitamente.
  2. IA generativa: En sistemas de generación de texto como los chatbots, la IA opera prediciendo la probabilidad del siguiente token en una secuencia. Al seleccionar iterativamente el token posterior más probable, el sistema construye oraciones y párrafos coherentes, impulsando herramientas que van desde la atención al cliente automatizada hasta los asistentes virtuales.

Python : uso de tokens de texto para la detección

El siguiente fragmento de código muestra cómo el ultralytics El paquete utiliza tokens de texto para guiar. detección de objetos. Mientras que la tecnología más avanzada YOLO26 Se recomienda para la inferencia de clase fija y alta velocidad. La arquitectura YOLO permite a los usuarios definir clases como tokens de texto en tiempo de ejecución.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

Comprender los tokens es fundamental para navegar por el panorama de la IA generativa y el análisis avanzado. Ya sea para permitir que un chatbot converse con fluidez o para ayudar a un sistema de visión a distinguir entre clases de objetos sutiles, los tokens siguen siendo la moneda esencial de la inteligencia artificial utilizada por marcos como PyTorch y TensorFlow.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora