Glosario

BERT (Representaciones codificadoras bidireccionales a partir de transformadores)

Descubre BERT, el revolucionario modelo de PNL de Google. Descubre cómo su comprensión bidireccional del contexto transforma tareas de IA como la búsqueda y los chatbots.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

BERT, que significa Representaciones Codificadoras Bidireccionales de Transformadores, es una técnica histórica para el preentrenamiento del Procesamiento del Lenguaje Natural (PLN) desarrollada por investigadores de Google AI Language. Presentada en 2018 mediante el influyente artículo"BERT: Preentrenamiento de Transformadores Bidireccionales Profundos para la Comprensión del Lenguaje", BERT revolucionó la forma en que las máquinas comprenden el lenguaje humano. Fue una de las primeras representaciones del lenguaje profundamente bidireccionales y no supervisadas, preentrenada utilizando sólo un corpus de texto plano como Wikipedia. BERT aprovecha la potente arquitectura Transformer, concretamente la parte codificadora, para procesar las palabras en relación con todas las demás palabras de una frase simultáneamente, en lugar de secuencialmente. Esto permite una comprensión más profunda del contexto en comparación con los modelos unidireccionales anteriores.

Cómo funciona Bert

A diferencia de los modelos anteriores, que procesaban el texto en una sola dirección (de izquierda a derecha o de derecha a izquierda), BERT procesa toda la secuencia de palabras a la vez utilizando su codificador Transformer y el mecanismo de autoatención. Este enfoque bidireccional le permite captar el contexto de una palabra basándose en las palabras que la rodean, tanto las que la preceden como las que la siguen. Por ejemplo, BERT puede diferenciar el significado de "banco" en "Tengo que ir al banco a sacar dinero" frente a "La orilla del río estaba embarrada" teniendo en cuenta el contexto completo de la frase.

BERT aprende estas complejas relaciones lingüísticas durante una fase de preentrenamiento en grandes cantidades de datos de texto. Esto implica dos tareas principales no supervisadas:

  1. Modelo de Lenguaje Enmascarado (MLM): Un porcentaje de los tokens de entrada (palabras o subpalabras) están enmascarados (ocultos) al azar, y el modelo aprende a predecir estos tokens enmascarados basándose en su contexto.
  2. Predicción de la siguiente frase (PNS): El modelo recibe pares de frases y aprende a predecir si la segunda frase es la siguiente frase real que sigue a la primera en el texto original, o simplemente una frase aleatoria.

El resultado de este preentrenamiento es un modelo con una rica incrustación lingüística que capta la sintaxis y la semántica. Este modelo BERT preentrenado puede adaptarse rápidamente o"afinarse" para diversas tareas específicas de PNL posteriores utilizando conjuntos de datos más pequeños y específicos de la tarea. Este proceso de aprovechamiento del conocimiento preentrenado es una forma de aprendizaje por transferencia.

Características y ventajas principales

  • Contexto Bidireccional Profundo: La principal innovación de BERT es su capacidad para comprender el contexto de una palabra observando simultáneamente las palabras que la preceden y las que la siguen. Esto conduce a una comprensión mucho más rica y precisa de los matices del lenguaje en comparación con los modelos unidireccionales como las primeras versiones de GPT.
  • Rendimiento de vanguardia: Tras su lanzamiento, BERT obtuvo resultados de vanguardia en una amplia gama de pruebas de PNL, incluida la respuesta a preguntas (como el conjunto de datos SQuAD) y tareas de Comprensión del Lenguaje Natural (NLU).
  • Potente aprendizaje por transferencia: Los modelos preentrenados de BERT sirven de potente base. Al afinar BERT en tareas específicas como el análisis de sentimientos o el Reconocimiento de Entidades Nombradas (NER), los desarrolladores pueden conseguir un alto rendimiento con una cantidad significativamente menor de datos específicos de la tarea y de tiempo de entrenamiento, en comparación con el entrenamiento de un modelo desde cero.
  • Amplia disponibilidad: Los modelos BERT preentrenados son fácilmente accesibles a través de plataformas como Hugging Face y se pueden utilizar con marcos de Aprendizaje Profundo ( AD) populares como PyTorch y TensorFlow.

Aplicaciones en el mundo real

La capacidad del BERT para comprender los matices del lenguaje ha dado lugar a mejoras significativas en diversas aplicaciones de Inteligencia Artificial (IA) del mundo real:

  • Motores de búsqueda: La Búsqueda de Google es famosa por incorporar BERT para comprender mejor las consultas de los usuarios, especialmente las conversacionales o complejas, lo que conduce a resultados de búsqueda más relevantes. Como se explica en una entrada del blog de IA deGoogle , BERT ayuda a comprender la intención que hay detrás de búsquedas como "¿puedes conseguir medicamentos para alguien de farmacia?" comprendiendo la importancia de preposiciones como "para" y "a".
  • Chatbots y asistentes virtuales: BERT mejora la capacidad de los chatbots y asistentes virtuales para comprender las peticiones de los usuarios con mayor precisión, mantener el contexto en las conversaciones y proporcionar respuestas más útiles en el servicio de atención al cliente, los sistemas de reservas y la recuperación de información.
  • Análisis de Sentimiento: Las empresas utilizan modelos basados en BERT para analizar las reseñas de los clientes, los comentarios en las redes sociales y las respuestas a encuestas para calibrar la opinión pública y los comentarios sobre los productos con mayor precisión.
  • Resumir textos y responder preguntas: BERT puede afinarse para crear sistemas que resuman automáticamente documentos largos(resumen de texto) o respondan a preguntas basadas en un pasaje de texto dado.

Aunque BERT se utiliza principalmente en PNL, la arquitectura de Transformadores que popularizó también ha inspirado avances en Visión por Computador (VC), como los Transformadores de Visión (ViT ) utilizados en modelos como RT-DETR. Plataformas como Ultralytics HUB facilitan la formación y el despliegue de diversos modelos de IA, incluidos los construidos sobre los principios de Transformer.

Leer todo