Glosario

BERT (Representaciones codificadoras bidireccionales a partir de transformadores)

Descubra BERT, el revolucionario modelo de PNL de Google. Descubre cómo su comprensión bidireccional del contexto transforma tareas de IA como la búsqueda y los chatbots.

BERT, siglas de Bidirectional Encoder Representations from Transformers, es un revolucionario modelo lingüístico desarrollado por Google. Presentado en un trabajo de investigación de 2018, BERT transformó el campo del Procesamiento del Lenguaje Natural (PLN ) al ser el primer modelo que comprende el contexto de una palabra basándose en su entorno tanto desde la izquierda como desde la derecha (bidireccionalmente). Esta capacidad de captar el contexto permite a BERT captar los matices del lenguaje humano con mucha más eficacia que los modelos anteriores, que normalmente procesaban el texto en una sola dirección. Es un tipo de modelo lingüístico amplio (LLM ) y se considera una tecnología fundamental para muchas aplicaciones modernas de PNL.

Cómo funciona Bert

La principal innovación de BERT reside en su enfoque de formación bidireccional, basado en la arquitectura Transformer. A diferencia de los modelos anteriores, que leen el texto secuencialmente, el mecanismo de atención de BERT le permite considerar toda la frase a la vez. Para lograr esta comprensión bidireccional durante el preentrenamiento, BERT utiliza dos estrategias principales:

  1. Modelo de lenguaje enmascarado (MLM): En esta tarea, algunas palabras de una frase se ocultan aleatoriamente, o se "enmascaran", y el trabajo del modelo consiste en predecir las palabras originales enmascaradas basándose en las palabras circundantes no enmascaradas. Esto obliga al modelo a aprender relaciones contextuales profundas en ambas direcciones.
  2. Predicción de la siguiente frase (NSP): el modelo recibe dos frases y debe predecir si la segunda frase es la que sigue lógicamente a la primera en el texto original. Esto ayuda a BERT a entender las relaciones entre frases, lo que es crucial para tareas como la respuesta a preguntas y el análisis de párrafos.

Tras este exhaustivo preentrenamiento en un corpus masivo de texto, BERT puede adaptarse a tareas específicas mediante un proceso denominado ajuste fino. Para ello, el modelo se entrena en un conjunto de datos más pequeño y específico, lo que lo convierte en una herramienta muy versátil para desarrolladores e investigadores. Muchos modelos BERT preentrenados están disponibles en plataformas como Hugging Face.

Aplicaciones reales

La capacidad de BERT para comprender los matices del lenguaje ha dado lugar a mejoras significativas en diversas aplicaciones de Inteligencia Artificial (IA) del mundo real:

  • Motores de búsqueda: La búsqueda de Google incorporó BERT para comprender mejor las consultas de los usuarios, sobre todo las conversacionales o complejas, y obtener resultados más relevantes. Por ejemplo, BERT ayuda a comprender la intención de búsquedas como "¿puedes conseguir medicamentos para una farmacia?" al entender la importancia de preposiciones como "para" y "a".
  • Chatbots y asistentes virtuales: BERT mejora la capacidad de los chatbots y asistentes virtuales para comprender las peticiones de los usuarios con mayor precisión, mantener el contexto en las conversaciones y ofrecer respuestas más útiles en el servicio de atención al cliente, los sistemas de reservas y la recuperación de información.
  • Análisis de sentimiento: Las empresas utilizan modelos basados en BERT para analizar reseñas de clientes, comentarios en redes sociales y respuestas a encuestas para calibrar la opinión pública y los comentarios sobre productos con mayor precisión.
  • Resumen de textos y respuesta a preguntas: BERT puede perfeccionarse para crear sistemas que resuman automáticamente documentos largos o respondan a preguntas a partir de un pasaje de texto determinado. Esto se evalúa en conjuntos de datos como el Stanford Question Answering Dataset (SQuAD).

Bert frente a otros modelos

Es importante distinguir el BERT de otros modelos de IA:

Plataformas como Ultralytics HUB facilitan la formación y el despliegue de varios modelos de IA, incluidos los construidos sobre los principios de Transformer. El desarrollo de modelos BERT y similares suele implicar marcos de aprendizaje automático estándar como PyTorch y TensorFlow.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles