Descubre BERT, el revolucionario modelo de PNL de Google. Descubre cómo su comprensión bidireccional del contexto transforma tareas de IA como la búsqueda y los chatbots.
BERT, que significa Representaciones Codificadoras Bidireccionales de Transformadores, es una técnica histórica para el preentrenamiento del Procesamiento del Lenguaje Natural (PLN) desarrollada por investigadores de Google AI Language. Presentada en 2018 mediante el influyente artículo"BERT: Preentrenamiento de Transformadores Bidireccionales Profundos para la Comprensión del Lenguaje", BERT revolucionó la forma en que las máquinas comprenden el lenguaje humano. Fue una de las primeras representaciones del lenguaje profundamente bidireccionales y no supervisadas, preentrenada utilizando sólo un corpus de texto plano como Wikipedia. BERT aprovecha la potente arquitectura Transformer, concretamente la parte codificadora, para procesar las palabras en relación con todas las demás palabras de una frase simultáneamente, en lugar de secuencialmente. Esto permite una comprensión más profunda del contexto en comparación con los modelos unidireccionales anteriores.
A diferencia de los modelos anteriores, que procesaban el texto en una sola dirección (de izquierda a derecha o de derecha a izquierda), BERT procesa toda la secuencia de palabras a la vez utilizando su codificador Transformer y el mecanismo de autoatención. Este enfoque bidireccional le permite captar el contexto de una palabra basándose en las palabras que la rodean, tanto las que la preceden como las que la siguen. Por ejemplo, BERT puede diferenciar el significado de "banco" en "Tengo que ir al banco a sacar dinero" frente a "La orilla del río estaba embarrada" teniendo en cuenta el contexto completo de la frase.
BERT aprende estas complejas relaciones lingüísticas durante una fase de preentrenamiento en grandes cantidades de datos de texto. Esto implica dos tareas principales no supervisadas:
El resultado de este preentrenamiento es un modelo con una rica incrustación lingüística que capta la sintaxis y la semántica. Este modelo BERT preentrenado puede adaptarse rápidamente o"afinarse" para diversas tareas específicas de PNL posteriores utilizando conjuntos de datos más pequeños y específicos de la tarea. Este proceso de aprovechamiento del conocimiento preentrenado es una forma de aprendizaje por transferencia.
La capacidad del BERT para comprender los matices del lenguaje ha dado lugar a mejoras significativas en diversas aplicaciones de Inteligencia Artificial (IA) del mundo real:
Aunque BERT se utiliza principalmente en PNL, la arquitectura de Transformadores que popularizó también ha inspirado avances en Visión por Computador (VC), como los Transformadores de Visión (ViT ) utilizados en modelos como RT-DETR. Plataformas como Ultralytics HUB facilitan la formación y el despliegue de diversos modelos de IA, incluidos los construidos sobre los principios de Transformer.