¡Descubre el poder de la tokenización en PLN y PLM! Aprende cómo dividir el texto en tokens mejora las tareas de IA, como el análisis de sentimientos y la generación de texto.
La tokenización es un paso fundamental del preprocesamiento en la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), especialmente vital en el Procesamiento del Lenguaje Natural (PLN). Consiste en descomponer secuencias de texto u otros datos en unidades más pequeñas y manejables llamadas tokens. Estos tokens sirven como bloques de construcción básicos que los algoritmos utilizan para comprender y procesar la información, transformando la entrada en bruto, como frases o párrafos, en un formato adecuado para su análisis por modelos de aprendizaje automático. Este proceso es esencial porque los ordenadores no entienden el texto del mismo modo que los humanos; necesitan datos estructurados en piezas discretas.
La idea central de la tokenización es la segmentación. Para los datos de texto, esto suele significar dividir las frases en palabras, subpalabras o incluso caracteres individuales basándose en reglas predefinidas o patrones aprendidos. Por ejemplo, la fraseUltralytics YOLO11 es potente" podría dividirse en palabras individuales: ["Ultralytics", "YOLO11", "is", "powerful"]
. El método concreto elegido depende en gran medida de la tarea y de la arquitectura del modelo que se utilice.
Las técnicas habituales incluyen la división del texto en función de los espacios en blanco y la puntuación. Sin embargo, a menudo se necesitan métodos más avanzados, sobre todo para manejar vocabularios grandes o palabras que no se han visto durante el entrenamiento. Técnicas como la codificación por pares de bytes (BPE) o WordPiece dividen las palabras en unidades de subpalabras más pequeñas. Se utilizan con frecuencia en los Modelos de Grandes Lenguajes (LLM), como BERT y GPT-4, para gestionar eficazmente el tamaño del vocabulario y manejar con elegancia las palabras desconocidas. La elección de la estrategia de tokenización puede afectar significativamente al rendimiento del modelo y a la eficiencia computacional.
La tokenización es crucial porque la mayoría de los modelos de ML, especialmente las arquitecturas de aprendizaje profundo, requieren una entrada numérica en lugar de texto en bruto. Al convertir el texto en tokens discretos, podemos asignar estos tokens a representaciones numéricas, como las incrustaciones. Estos vectores numéricos capturan el significado semántico y las relaciones, permitiendo que los modelos construidos con marcos como PyTorch o TensorFlow aprendan patrones a partir de los datos. Este paso fundamental sustenta numerosas aplicaciones de IA:
Procesamiento del Lenguaje Natural (PLN): La tokenización es fundamental en casi todas las tareas de PNL.
Visión por ordenador (CV): Aunque tradicionalmente se asocia a la PNL, el concepto se extiende a la Visión por Ordenador (CV).
Es importante distinguir entre "Tokenización" y un"Token".
Entender la tokenización es fundamental para comprender cómo los modelos de IA interpretan y aprenden de diversos tipos de datos. La gestión de conjuntos de datos y modelos de entrenamiento a menudo implica plataformas como Ultralytics HUB, que ayudan a agilizar los flujos de trabajo de preprocesamiento de datos y entrenamiento de modelos, a menudo con datos tokenizados implícita o explícitamente. A medida que evoluciona la IA, los métodos de tokenización siguen adaptándose, desempeñando un papel clave en la construcción de modelos más sofisticados para tareas que van desde la generación de textos a la comprensión visual compleja en campos como los vehículos autónomos y el análisis de imágenes médicas.