Glosario

BERT (Representaciones codificadoras bidireccionales a partir de transformadores)

Descubra BERT, el revolucionario modelo de PNL de Google. Descubre cómo su comprensión bidireccional del contexto transforma tareas de IA como la búsqueda y los chatbots.

BERT, siglas de Bidirectional Encoder Representations from Transformers, es un revolucionario modelo lingüístico desarrollado por Google. Presentado en un trabajo de investigación de 2018, BERT transformó el campo del Procesamiento del Lenguaje Natural (PLN ) al ser el primer modelo que comprende el contexto de una palabra basándose en su entorno tanto desde la izquierda como desde la derecha (bidireccionalmente). Esta capacidad de captar el contexto permite a BERT captar los matices del lenguaje humano con mucha más eficacia que los modelos anteriores, que normalmente procesaban el texto en una sola dirección. Es un tipo de modelo lingüístico amplio (LLM ) y se considera una tecnología fundamental para muchas aplicaciones modernas de PNL.

Cómo funciona Bert

La principal innovación de BERT reside en su enfoque de formación bidireccional, basado en la arquitectura Transformer. A diferencia de los modelos anteriores, que leen el texto secuencialmente, el mecanismo de atención de BERT le permite considerar toda la frase a la vez. Para lograr esta comprensión bidireccional durante el preentrenamiento, BERT utiliza dos estrategias principales:

Modelo de lenguaje enmascarado (MLM): En esta tarea, algunas palabras de una frase se ocultan aleatoriamente, o se "enmascaran", y el trabajo del modelo consiste en predecir las palabras originales enmascaradas basándose en las palabras circundantes no enmascaradas. Esto obliga al modelo a aprender relaciones contextuales profundas en ambas direcciones.
Predicción de la siguiente frase (NSP): el modelo recibe dos frases y debe predecir si la segunda frase es la que sigue lógicamente a la primera en el texto original. Esto ayuda a BERT a entender las relaciones entre frases, lo que es crucial para tareas como la respuesta a preguntas y el análisis de párrafos.

Tras este exhaustivo preentrenamiento en un corpus masivo de texto, BERT puede adaptarse a tareas específicas mediante un proceso denominado ajuste fino. Para ello, el modelo se entrena en un conjunto de datos más pequeño y específico, lo que lo convierte en una herramienta muy versátil para desarrolladores e investigadores. Muchos modelos BERT preentrenados están disponibles en plataformas como Hugging Face.

Aplicaciones reales

La capacidad de BERT para comprender los matices del lenguaje ha dado lugar a mejoras significativas en diversas aplicaciones de Inteligencia Artificial (IA) del mundo real:

Motores de búsqueda: La búsqueda de Google incorporó BERT para comprender mejor las consultas de los usuarios, sobre todo las conversacionales o complejas, y obtener resultados más relevantes. Por ejemplo, BERT ayuda a comprender la intención de búsquedas como "¿puedes conseguir medicamentos para una farmacia?" al entender la importancia de preposiciones como "para" y "a".
Chatbots y asistentes virtuales: BERT mejora la capacidad de los chatbots y asistentes virtuales para comprender las peticiones de los usuarios con mayor precisión, mantener el contexto en las conversaciones y ofrecer respuestas más útiles en el servicio de atención al cliente, los sistemas de reservas y la recuperación de información.
Análisis de sentimiento: Las empresas utilizan modelos basados en BERT para analizar reseñas de clientes, comentarios en redes sociales y respuestas a encuestas para calibrar la opinión pública y los comentarios sobre productos con mayor precisión.
Resumen de textos y respuesta a preguntas: BERT puede perfeccionarse para crear sistemas que resuman automáticamente documentos largos o respondan a preguntas a partir de un pasaje de texto determinado. Esto se evalúa en conjuntos de datos como el Stanford Question Answering Dataset (SQuAD).

Bert frente a otros modelos

Es importante distinguir el BERT de otros modelos de IA:

frente a GPT: Aunque ambos son LLM basados en transformadores, BERT es un modelo exclusivamente codificador diseñado para comprender el contexto desde ambas direcciones. Esto hace que destaque en tareas analíticas como el análisis de sentimientos, el reconocimiento de entidades con nombre (NER) y la clasificación de textos. En cambio, los modelos GPT se centran en el descodificador y leen el texto en una sola dirección (de izquierda a derecha), por lo que están optimizados para generar texto nuevo y coherente.
frente a los modelos de visión por ordenador: BERT procesa y comprende texto, lo que es fundamentalmente diferente de los modelos de visión por ordenador (CV ) como Ultralytics YOLO. Los modelos de visión como YOLO11 analizan píxeles en imágenes y vídeos para realizar tareas como la detección de objetos o la segmentación de instancias. Mientras que BERT interpreta el lenguaje, la arquitectura Transformer que popularizó ha inspirado avances en CV, dando lugar a modelos como el Vision Transformer (ViT) utilizado en modelos como RT-DETR.

Plataformas como Ultralytics HUB facilitan la formación y el despliegue de varios modelos de IA, incluidos los construidos sobre los principios de Transformer. El desarrollo de modelos BERT y similares suele implicar marcos de aprendizaje automático estándar como PyTorch y TensorFlow.

BERT (Representaciones codificadoras bidireccionales a partir de transformadores)

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

Cómo funciona Bert

Aplicaciones reales

Bert frente a otros modelos

Leer más en esta categoría

Evolución y futuro de la robótica en la fabricación

Mejore la vigilancia inteligente con Ultralytics YOLO11

Guía sobre la arquitectura U-Net y sus aplicaciones

Únase a la comunidad Ultralytics