Glosario

Tokenización

¡Descubre el poder de la tokenización en PLN y PLM! Aprende cómo dividir el texto en tokens mejora las tareas de IA, como el análisis de sentimientos y la generación de texto.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La tokenización es un paso fundamental del preprocesamiento en la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), especialmente vital en el Procesamiento del Lenguaje Natural (PLN). Consiste en descomponer secuencias de texto u otros datos en unidades más pequeñas y manejables llamadas tokens. Estos tokens sirven como bloques de construcción básicos que los algoritmos utilizan para comprender y procesar la información, transformando la entrada en bruto, como frases o párrafos, en un formato adecuado para su análisis por modelos de aprendizaje automático. Este proceso es esencial porque los ordenadores no entienden el texto del mismo modo que los humanos; necesitan datos estructurados en piezas discretas.

Cómo funciona la tokenización

La idea central de la tokenización es la segmentación. Para los datos de texto, esto suele significar dividir las frases en palabras, subpalabras o incluso caracteres individuales basándose en reglas predefinidas o patrones aprendidos. Por ejemplo, la fraseUltralytics YOLO11 es potente" podría dividirse en palabras individuales: ["Ultralytics", "YOLO11", "is", "powerful"]. El método concreto elegido depende en gran medida de la tarea y de la arquitectura del modelo que se utilice.

Las técnicas habituales incluyen la división del texto en función de los espacios en blanco y la puntuación. Sin embargo, a menudo se necesitan métodos más avanzados, sobre todo para manejar vocabularios grandes o palabras que no se han visto durante el entrenamiento. Técnicas como la codificación por pares de bytes (BPE) o WordPiece dividen las palabras en unidades de subpalabras más pequeñas. Se utilizan con frecuencia en los Modelos de Grandes Lenguajes (LLM), como BERT y GPT-4, para gestionar eficazmente el tamaño del vocabulario y manejar con elegancia las palabras desconocidas. La elección de la estrategia de tokenización puede afectar significativamente al rendimiento del modelo y a la eficiencia computacional.

Relevancia y aplicaciones en el mundo real

La tokenización es crucial porque la mayoría de los modelos de ML, especialmente las arquitecturas de aprendizaje profundo, requieren una entrada numérica en lugar de texto en bruto. Al convertir el texto en tokens discretos, podemos asignar estos tokens a representaciones numéricas, como las incrustaciones. Estos vectores numéricos capturan el significado semántico y las relaciones, permitiendo que los modelos construidos con marcos como PyTorch o TensorFlow aprendan patrones a partir de los datos. Este paso fundamental sustenta numerosas aplicaciones de IA:

  1. Procesamiento del Lenguaje Natural (PLN): La tokenización es fundamental en casi todas las tareas de PNL.

    • Traducción automática: Servicios como Google Translate tokenizan la frase de entrada en la lengua de origen, procesan estos tokens utilizando modelos complejos (a menudo basados en la arquitectura Transformer ), y luego generan tokens en la lengua de destino, que finalmente se ensamblan en la frase traducida.
    • Análisis de Sentimiento: Para determinar si una opinión de un cliente es positiva o negativa, primero se tokeniza el texto. A continuación, el modelo analiza estos tokens (y sus representaciones numéricas) para clasificar el sentimiento general. Más información sobre el Análisis de Sentimiento. Las técnicas como la sintonización de estímulos también se basan en la manipulación de secuencias de tokens.
  2. Visión por ordenador (CV): Aunque tradicionalmente se asocia a la PNL, el concepto se extiende a la Visión por Ordenador (CV).

    • Transformadores de Visión (ViT): En modelos como los Transformadores de Visión (ViT), las imágenes se dividen en parches de tamaño fijo. Estos fragmentos se tratan como "fichas visuales" y se aplanan en secuencias. A continuación, estas secuencias se introducen en una red de Transformadores, que utiliza mecanismos como la autoatención para comprender las relaciones entre las distintas partes de la imagen, de forma similar a como se procesan los tokens de texto en la PNL. Esto permite tareas como la clasificación de imágenes y la detección de objetos. Modelos como el Segment Anything Model (SAM) también utilizan conceptos similares a los de los tokens para la segmentación de imágenes.
    • Modelos multimodales: Modelos como CLIP y YOLO tienden un puente entre la visión y el lenguaje al procesar tanto los tokens de texto como los tokens visuales (o las características de la imagen) para realizar tareas como la detección de objetos de disparo cero basada en descripciones de texto.

Tokenización vs. Tokens

Es importante distinguir entre "Tokenización" y un"Token".

  • Tokenización: Se refiere al proceso de descomponer los datos en unidades más pequeñas. Es un paso previo al procesamiento.
  • Ficha: Se refiere al resultado del proceso de tokenización: la unidad individual (palabra, subpalabra, carácter o fragmento de imagen) que procesa el modelo.

Entender la tokenización es fundamental para comprender cómo los modelos de IA interpretan y aprenden de diversos tipos de datos. La gestión de conjuntos de datos y modelos de entrenamiento a menudo implica plataformas como Ultralytics HUB, que ayudan a agilizar los flujos de trabajo de preprocesamiento de datos y entrenamiento de modelos, a menudo con datos tokenizados implícita o explícitamente. A medida que evoluciona la IA, los métodos de tokenización siguen adaptándose, desempeñando un papel clave en la construcción de modelos más sofisticados para tareas que van desde la generación de textos a la comprensión visual compleja en campos como los vehículos autónomos y el análisis de imágenes médicas.

Leer todo