¡Descubre el poder de la tokenización en PLN y PLM! Aprende cómo dividir el texto en tokens mejora las tareas de IA, como el análisis de sentimientos y la generación de texto.
La tokenización es un paso fundamental del preprocesamiento en la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), especialmente vital en el Procesamiento del Lenguaje Natural (PLN). Consiste en descomponer secuencias de texto u otros datos en unidades más pequeñas y manejables llamadas tokens. Estos tokens sirven como bloques de construcción básicos que los algoritmos utilizan para comprender y procesar la información, transformando la entrada bruta en un formato adecuado para el análisis.
La idea central de la tokenización es la segmentación. Para los datos de texto, esto suele significar dividir las frases en palabras, subpalabras o incluso caracteres individuales basándose en reglas predefinidas o patrones aprendidos. Por ejemplo, la fraseUltralytics YOLOv8 es potente" podría dividirse en: ["Ultralytics", "YOLOv8", "is", "powerful"]
. El método concreto elegido depende de la tarea y de la arquitectura del modelo. Las técnicas habituales incluyen la división por espacios en blanco y signos de puntuación, o el uso de métodos más avanzados como Codificación de pares de bytes (BPE) o WordPieceque se utilizan a menudo en Grandes modelos lingüísticos (LLM) como BERT para manejar grandes vocabularios y palabras desconocidas con eficacia.
La tokenización es esencial porque la mayoría de los modelos de ML requieren una entrada numérica. Al convertir el texto en tokens discretos, podemos asignar estos tokens a representaciones numéricas como incrustaciones, lo que permite a los modelos aprender patrones y relaciones dentro de los datos. Este proceso es la base de numerosas aplicaciones de IA:
["The", "service", "was", "excellent", "!"]
). Cada ficha Después se analiza, a menudo utilizando su incrustación, lo que permite al modelo clasificar el sentimiento general como positivo, negativo o neutro. Esto es crucial para las empresas que analizan las opiniones de los clientes. Más información sobre el Análisis de Sentimiento.Aunque tradicionalmente se asocia a la PNL, el concepto se extiende a la Visión por Ordenador (VC). En los Transformadores de Visión (ViT), las imágenes se dividen en fragmentos de tamaño fijo, que se tratan como "fichas visuales". Estos tokens se procesan de forma similar a los tokens de texto en los transformadores de PLN, lo que permite a los modelos comprender las jerarquías espaciales y el contexto dentro de las imágenes.
Una tokenización eficaz estandariza los datos de entrada, simplifica el procesamiento para los modelos y ayuda a gestionar el tamaño del vocabulario, especialmente con métodos de subpalabras. Bibliotecas como Hugging Face Tokenizers y kits de herramientas como NLTK proporcionan implementaciones robustas. Las plataformas como Ultralytics HUB suelen abstraer las complejidades del preprocesamiento de datos, incluida la tokenización, agilizando el flujo de trabajo para los modelos de entrenamiento creados con marcos como PyTorch o TensorFlow. Comprender la tokenización es clave para construir y optimizar muchos sistemas modernos de IA.