Glossário

BERT (Bidirectional Encoder Representations from Transformers)

Descobre o BERT, o revolucionário modelo de PNL da Google. Aprende como a sua compreensão bidirecional do contexto transforma as tarefas de IA, como a pesquisa e os chatbots.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O BERT, que significa Bidirectional Encoder Representations from Transformers, é uma técnica de referência para o pré-treino de Processamento de Linguagem Natural (PNL) desenvolvida por investigadores da Google AI Language. Apresentado em 2018 através do influente artigo"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", o BERT revolucionou a forma como as máquinas compreendem a linguagem humana. Foi uma das primeiras representações linguísticas profundamente bidirecionais e não supervisionadas, pré-treinadas usando apenas um corpus de texto simples como a Wikipédia. O BERT aproveita a poderosa arquitetura do Transformer, especificamente a parte do codificador, para processar palavras em relação a todas as outras palavras de uma frase simultaneamente, em vez de sequencialmente. Isto permite uma compreensão mais profunda do contexto em comparação com os modelos unidireccionais anteriores.

Como funciona o Bert

Ao contrário dos modelos anteriores que processavam o texto numa única direção (da esquerda para a direita ou da direita para a esquerda), o BERT processa toda a sequência de palavras de uma só vez, utilizando o seu codificador Transformer e o mecanismo de auto-atenção. Esta abordagem bidirecional permite-lhe compreender o contexto de uma palavra com base nas palavras que a rodeiam, tanto as que a precedem como as que a seguem. Por exemplo, o BERT pode diferenciar o significado de "banco" em "Preciso de ir ao banco levantar dinheiro" e "A margem do rio estava lamacenta", considerando o contexto completo da frase.

O BERT aprende estas relações linguísticas complexas durante uma fase de pré-treino em grandes quantidades de dados de texto. Isto envolve duas tarefas principais não supervisionadas:

  1. Modelo de linguagem mascarada (MLM): Alguma percentagem dos tokens de entrada (palavras ou sub-palavras) são aleatoriamente mascarados (escondidos) e o modelo aprende a prever estes tokens mascarados com base no seu contexto.
  2. Previsão da frase seguinte (NSP): O modelo recebe pares de frases e aprende a prever se a segunda frase é a frase seguinte que se segue à primeira no texto original ou apenas uma frase aleatória.

O resultado deste pré-treinamento é um modelo com uma rica incorporação de linguagem que capta a sintaxe e a semântica. Este modelo BERT pré-treinado pode então ser rapidamente adaptado ou"afinado" para várias tarefas específicas de PNL a jusante, utilizando conjuntos de dados mais pequenos e específicos para cada tarefa. Este processo de aproveitamento do conhecimento pré-treinado é uma forma de aprendizagem por transferência.

Principais caraterísticas e vantagens

  • Contexto bidirecional profundo: A principal inovação do BERT é a sua capacidade de compreender o contexto de uma palavra, analisando simultaneamente as palavras que vêm antes e depois dela. Isto leva a uma compreensão muito mais rica e precisa das nuances da linguagem em comparação com modelos unidireccionais como as primeiras versões do GPT.
  • Desempenho topo de gama: Aquando do seu lançamento, o BERT obteve resultados de ponta numa vasta gama de benchmarks de NLP, incluindo tarefas de resposta a perguntas (como o conjunto de dados SQuAD) e de compreensão de linguagem natural (NLU).
  • Poder de aprendizagem por transferência: Os modelos pré-treinados do BERT servem como uma base poderosa. Ao afinar o BERT em tarefas específicas, como a análise de sentimentos ou o Reconhecimento de Entidades Nomeadas (NER), os programadores podem obter um elevado desempenho com uma quantidade significativamente menor de dados específicos da tarefa e de tempo de treino, em comparação com o treino de um modelo de raiz.
  • Ampla disponibilidade: Os modelos BERT pré-treinados são facilmente acessíveis através de plataformas como Hugging Face e podem ser utilizados com estruturas populares de aprendizagem profunda (DL), tais como PyTorch e TensorFlow.

Aplicações no mundo real

A capacidade do BERT para compreender as nuances da linguagem conduziu a melhorias significativas em várias aplicações de Inteligência Artificial (IA) do mundo real:

  • Motores de pesquisa: A Pesquisa Google incorporou o BERT para compreender melhor as consultas dos utilizadores, especialmente as conversacionais ou complexas, conduzindo a resultados de pesquisa mais relevantes. Conforme explicado numa publicação do Blogue de IAGoogle , o BERT ajuda a compreender a intenção subjacente a pesquisas como "podes arranjar medicamentos para alguém da farmácia", compreendendo a importância de preposições como "para" e "para".
  • Chatbots e assistentes virtuais: O BERT melhora a capacidade dos chatbots e assistentes virtuais para compreenderem os pedidos dos utilizadores com maior precisão, manterem o contexto nas conversas e fornecerem respostas mais úteis no serviço ao cliente, sistemas de reservas e recuperação de informações.
  • Análise de sentimento: As empresas utilizam modelos baseados no BERT para analisar as opiniões dos clientes, comentários nas redes sociais e respostas a inquéritos para avaliar a opinião pública e o feedback dos produtos com maior precisão.
  • Sumarização de texto e resposta a perguntas: O BERT pode ser aperfeiçoado para criar sistemas que resumam automaticamente documentos longos(resumo de texto) ou respondam a perguntas com base numa determinada passagem de texto.

Embora o BERT seja utilizado principalmente na PNL, a arquitetura Transformer que popularizou também inspirou avanços na Visão por Computador (CV), como os Transformadores de Visão (ViT) utilizados em modelos como RT-DETR. Plataformas como o Ultralytics HUB facilitam a formação e a implementação de vários modelos de IA, incluindo os construídos com base nos princípios do Transformer.

Lê tudo