Glosario

Tokenización

¡Descubre el poder de la tokenización en PLN y PLM! Aprende cómo dividir el texto en tokens mejora las tareas de IA, como el análisis de sentimientos y la generación de texto.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La tokenización es un paso fundamental del preprocesamiento en la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), especialmente vital en el Procesamiento del Lenguaje Natural (PLN). Consiste en descomponer secuencias de texto u otros datos en unidades más pequeñas y manejables llamadas tokens. Estos tokens sirven como bloques de construcción básicos que los algoritmos utilizan para comprender y procesar la información, transformando la entrada bruta en un formato adecuado para el análisis.

Cómo funciona la tokenización

La idea central de la tokenización es la segmentación. Para los datos de texto, esto suele significar dividir las frases en palabras, subpalabras o incluso caracteres individuales basándose en reglas predefinidas o patrones aprendidos. Por ejemplo, la fraseUltralytics YOLOv8 es potente" podría dividirse en: ["Ultralytics", "YOLOv8", "is", "powerful"]. El método concreto elegido depende de la tarea y de la arquitectura del modelo. Las técnicas habituales incluyen la división por espacios en blanco y signos de puntuación, o el uso de métodos más avanzados como Codificación de pares de bytes (BPE) o WordPieceque se utilizan a menudo en Grandes modelos lingüísticos (LLM) como BERT para manejar grandes vocabularios y palabras desconocidas con eficacia.

Relevancia y aplicaciones en el mundo real

La tokenización es esencial porque la mayoría de los modelos de ML requieren una entrada numérica. Al convertir el texto en tokens discretos, podemos asignar estos tokens a representaciones numéricas como incrustaciones, lo que permite a los modelos aprender patrones y relaciones dentro de los datos. Este proceso es la base de numerosas aplicaciones de IA:

  1. Traducción automática: Servicios como Google Translate tokenizan las frases de entrada en la lengua de origen en tokens, procesan estos tokens utilizando redes neuronales complejas (a menudo Transformers), y luego generan tokens en la lengua de destino, que finalmente se ensamblan de nuevo en frases. Una tokenización precisa garantiza que se capten correctamente los matices lingüísticos.
  2. Análisis de Sentimiento: Para determinar el sentimiento de una opinión de un cliente como "¡El servicio fue excelente!", primero se tokeniza el texto (["The", "service", "was", "excellent", "!"]). Cada ficha Después se analiza, a menudo utilizando su incrustación, lo que permite al modelo clasificar el sentimiento general como positivo, negativo o neutro. Esto es crucial para las empresas que analizan las opiniones de los clientes. Más información sobre el Análisis de Sentimiento.
  3. Modelos de Visión-Lenguaje: Los modelos como CLIP o Ultralytics YOLO se basan en la tokenización de los mensajes de texto para comprender las consultas de los usuarios en tareas como la detección de objetos con disparo cero o la segmentación de imágenes. Los tokens de texto se vinculan con características visuales aprendidas de las imágenes.

Tokenización en visión por ordenador

Aunque tradicionalmente se asocia a la PNL, el concepto se extiende a la Visión por Ordenador (VC). En los Transformadores de Visión (ViT), las imágenes se dividen en fragmentos de tamaño fijo, que se tratan como "fichas visuales". Estos tokens se procesan de forma similar a los tokens de texto en los transformadores de PLN, lo que permite a los modelos comprender las jerarquías espaciales y el contexto dentro de las imágenes.

Ventajas y herramientas

Una tokenización eficaz estandariza los datos de entrada, simplifica el procesamiento para los modelos y ayuda a gestionar el tamaño del vocabulario, especialmente con métodos de subpalabras. Bibliotecas como Hugging Face Tokenizers y kits de herramientas como NLTK proporcionan implementaciones robustas. Las plataformas como Ultralytics HUB suelen abstraer las complejidades del preprocesamiento de datos, incluida la tokenización, agilizando el flujo de trabajo para los modelos de entrenamiento creados con marcos como PyTorch o TensorFlow. Comprender la tokenización es clave para construir y optimizar muchos sistemas modernos de IA.

Leer todo