Glosario

BERT (Representaciones codificadoras bidireccionales a partir de transformadores)

Descubre BERT, el revolucionario modelo de PNL de Google. Descubre cómo su comprensión bidireccional del contexto transforma tareas de IA como la búsqueda y los chatbots.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

BERT, que significa Representaciones Codificadoras Bidireccionales de Transformadores, es una técnica histórica para el preentrenamiento del Procesamiento del Lenguaje Natural (PLN) desarrollada por investigadores de Google AI Language. Presentada en 2018, BERT revolucionó la forma en que las máquinas comprenden el lenguaje humano al ser la primera representación del lenguaje profundamente bidireccional y no supervisada, preentrenada utilizando sólo un corpus de texto plano. Aprovecha la potente arquitectura Transformer, concretamente la parte codificadora, para procesar las palabras en relación con todas las demás palabras de una frase, en lugar de secuencialmente.

Cómo funciona Bert

A diferencia de los modelos anteriores, que procesaban el texto en una sola dirección (de izquierda a derecha o de derecha a izquierda), BERT procesa toda la secuencia de palabras a la vez. Este enfoque bidireccional le permite captar el contexto de una palabra basándose en las palabras que la rodean, tanto las que la preceden como las que la siguen. Imagina que intentas comprender el significado de la palabra "banco" en "Fui al banco a depositar dinero" frente a "Me senté en la orilla del río". La bidireccionalidad de BERT le ayuda a diferenciar eficazmente estos significados. Aprende estas relaciones mediante el preentrenamiento en grandes cantidades de datos de texto, como Wikipedia, utilizando técnicas como el Modelado del Lenguaje Enmascarado (predicción de palabras ocultas) y la Predicción de la Siguiente Frase. El modelo preentrenado resultante, que contiene ricas incrustaciones lingüísticas, puede adaptarse o"afinarse" rápidamente para tareas específicas de PLN con conjuntos de datos más pequeños y específicos de la tarea.

Características y ventajas principales

  • Contexto bidireccional: Comprende el significado de las palabras basándose en el contexto de la frase completa, lo que mejora la precisión en tareas que requieren una comprensión profunda del lenguaje.
  • Preentrenamiento y ajuste fino: Ofrece potentes modelos preentrenados que captan la comprensión general del lenguaje, que pueden adaptarse fácilmente a aplicaciones específicas como el análisis de sentimientos o la respuesta a preguntas. Esto reduce significativamente la necesidad de grandes conjuntos de datos etiquetados para cada tarea.
  • Rendimiento de vanguardia: Alcanzó resultados revolucionarios en una amplia gama de pruebas de PNL tras su lanzamiento, estableciendo un nuevo estándar para los modelos lingüísticos. Puedes explorar la investigación original en el artículo ArXiv del BERT.
  • Versatilidad: Puede aplicarse a diversas tareas de PNL, como la clasificación de textos, el reconocimiento de entidades con nombre y la inferencia del lenguaje natural.

Aplicaciones en el mundo real

La capacidad del BERT para comprender los matices del lenguaje ha dado lugar a mejoras significativas en diversas aplicaciones:

  1. Motores de búsqueda: Google integró BERT en su motor de búsqueda para comprender mejor las consultas de los usuarios. Como se detalla en la entrada del Blog deGoogle AI sobre BERT en la Búsqueda, esto ayuda a ofrecer resultados de búsqueda más relevantes al comprender el contexto y la intención que hay detrás de las consultas complejas o conversacionales.
  2. IA conversacional: BERT mejora los chatbots y asistentes virtuales permitiéndoles comprender mejor las peticiones de los usuarios, mantener el contexto durante las conversaciones y proporcionar respuestas más precisas y útiles. Esto conduce a interacciones persona-ordenador más naturales y eficaces.

Otras aplicaciones son la mejora de las herramientas de resumen de textos y la mejora de los sistemas de traducción automática.

Bert frente a modelos similares

BERT se centra principalmente en la codificación de texto para tareas de comprensión. Su naturaleza bidireccional contrasta con los modelos unidireccionales anteriores, como las Redes Neuronales Recurrentes (RNN) básicas. Aunque también se basa en la arquitectura Transformer, BERT difiere de modelos como GPT (Generative Pre-trained Transformer), que suelen estar optimizados para generar texto en lugar de sólo codificarlo. La propia arquitectura Transformer también se ha adaptado para tareas de visión por ordenador, como se ve en modelos como el Transformador de Visión (ViT), lo que demuestra la flexibilidad de la arquitectura más allá de la PNL. Muchos modelos BERT preentrenados están fácilmente disponibles a través de plataformas como Hugging Face y pueden integrarse en flujos de trabajo mediante herramientas como Ultralytics HUB.

Leer todo