Glosario

Tokenización

¡Descubre el poder de la tokenización en PNL e IA! Aprende cómo dividir el texto en tokens mejora el análisis de sentimientos, la clasificación y mucho más.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La tokenización es el proceso de descomponer el texto en unidades más pequeñas llamadas tokens. Estos tokens pueden ser tan pequeños como caracteres individuales, palabras o frases, dependiendo del contexto y la aplicación. La tokenización es un paso fundamental en las tareas de procesamiento del lenguaje natural (PLN) y aprendizaje automático (AM), ya que permite a los ordenadores procesar y analizar datos de texto de forma eficaz. Al convertir el texto no estructurado en tokens estructurados, la tokenización facilita a los algoritmos la realización de tareas como la clasificación de textos, el análisis de sentimientos y el modelado del lenguaje.

Importancia de la tokenización en la IA

La tokenización es esencial para transformar el texto en bruto en un formato que los modelos de aprendizaje automático puedan entender. En PNL, los modelos como BERT o GPT procesan secuencias de tokens en lugar de texto en bruto. Estos tokens actúan como bloques de construcción para análisis posteriores, como la generación de incrustaciones o los mecanismos de atención.

Además, la tokenización ayuda a normalizar el texto, permitiendo que los algoritmos se centren en patrones significativos en lugar de en detalles irrelevantes (por ejemplo, puntuación o espacios en blanco). Este proceso también contribuye a tareas como la generación de texto, en la que los modelos predicen el siguiente token de una secuencia, y la traducción automática, en la que los tokens se traducen entre idiomas.

Tipos de tokenización

  1. Tokenización de palabras: Divide el texto en palabras individuales. Por ejemplo, la frase "Ultralytics HUB es poderoso" se convierte en ["Ultralytics", "HUB", "es", "poderoso"].
  2. Tokenización de subpalabras: Divide el texto en unidades de subpalabras más pequeñas. Este método es habitual en modelos como BERT y GPT para tratar palabras raras o desconocidas dividiéndolas en trozos significativos (por ejemplo, "poderoso" en "poder" y "ful").
  3. Tokenización de caracteres: Divide el texto en caracteres individuales. Por ejemplo, "Ultralytics" se convierte en ["U", "l", "t", "r", "a", "l", "y", "t", "i", "c", "s"].

Cada método tiene sus ventajas y sus inconvenientes. La tokenización de palabras es sencilla, pero puede tener problemas con las palabras desconocidas, mientras que la tokenización de subpalabras y caracteres maneja mejor las palabras raras, pero aumenta la longitud de la secuencia y la complejidad computacional.

Aplicaciones de la Tokenización

Análisis de Sentimiento

En el análisis de sentimientos, la tokenización divide las opiniones de los usuarios o las publicaciones de las redes sociales en tokens para identificar sentimientos positivos, negativos o neutros. Por ejemplo, en una opinión sobre un producto como "Me encanta la velocidad de Ultralytics YOLO ", la tokenización ayuda a extraer tokens clave como "amor", "velocidad" y "Ultralytics YOLO " para evaluar el sentimiento.

Clasificación del texto

La tokenización es un paso clave en tareas de clasificación de texto como la detección de spam o el modelado de temas. En la detección de spam, los modelos analizan los tokens dentro de los correos electrónicos para identificar patrones que distingan entre spam y mensajes legítimos. Más información sobre las tareas de clasificación y su implementación en los flujos de trabajo de Ultralytics YOLO .

Modelos lingüísticos

La tokenización es esencial para entrenar y utilizar modelos lingüísticos como el GPT-4. Los tokens representan la entrada y la salida de estos modelos. Los tokens representan la entrada y la salida de estos modelos, permitiendo tareas como el resumen de textos, la respuesta a preguntas y la IA conversacional.

Metadatos de detección de objetos

En las tareas de visión por ordenador, la tokenización se utiliza para procesar metadatos, como etiquetas de objetos o anotaciones. Por ejemplo, los modelos de detección de objetos como Ultralytics YOLO pueden tokenizar las anotaciones basadas en texto para mejorar la compatibilidad con los conductos de aprendizaje automático.

La tokenización en la práctica

Ejemplo 1: Aplicaciones de la PNL

Considera un chatbot potenciado por la comprensión del lenguaje natural (NLU). La tokenización transforma una entrada del usuario como "¿Qué tiempo hace en Madrid?" en tokens como ["¿Qué?", "el", "tiempo", "como", "en", "Madrid", "?"]. A continuación, estos tokens se procesan para generar una respuesta relevante.

Ejemplo 2: Tokenización de subpalabras para palabras raras

En un conjunto de datos sanitarios, es posible que términos médicos poco frecuentes como "angioplastia" no aparezcan en los vocabularios estándar. La tokenización de subpalabras divide el término en ["angio", "plastia"], lo que permite a los modelos comprender y procesar eficazmente los términos desconocidos. Más información sobre las aplicaciones sanitarias de la IA.

Tokenización vs. Conceptos relacionados

Aunque la tokenización es fundamental en la PNL, difiere de conceptos relacionados como las incrustaciones y los mecanismos de atención. La tokenización prepara el texto en bruto para su procesamiento, mientras que las incrustaciones convierten los tokens en vectores numéricos, y los mecanismos de atención determinan la importancia de los tokens dentro de una secuencia.

Herramientas y marcos de apoyo a la tokenización

  • PyTorch: La tokenización se integra a menudo en PyTorch pipelines para tareas de PNL.
  • Ultralytics HUB: Simplifica la formación y el despliegue de modelos, incluyendo pasos de preprocesamiento como la tokenización.
  • Hugging Face Transformadores: Proporciona tokenizadores preentrenados para los modelos lingüísticos más avanzados.

En resumen, la tokenización es un paso fundamental en la preparación de datos de texto para aplicaciones de IA y aprendizaje automático. Su versatilidad y utilidad se extienden al análisis de sentimientos, la clasificación, el modelado del lenguaje, etc., lo que la convierte en un proceso indispensable en los flujos de trabajo modernos de la IA.

Leer todo