Glossário

BERT (Bidirectional Encoder Representations from Transformers)

Descubra o BERT, o revolucionário modelo de PNL da Google. Saiba como a sua compreensão bidirecional do contexto transforma as tarefas de IA, como a pesquisa e os chatbots.

O BERT, que significa Bidirectional Encoder Representations from Transformers, é um modelo linguístico revolucionário desenvolvido pela Google. Apresentado num artigo de investigação de 2018, o BERT transformou o campo do Processamento de Linguagem Natural (PNL) ao ser o primeiro modelo a compreender o contexto de uma palavra com base no que a rodeia, tanto à esquerda como à direita (bidireccionalmente). Esta capacidade de compreender o contexto permite ao BERT captar as nuances da linguagem humana de forma muito mais eficaz do que os modelos anteriores, que normalmente processavam o texto numa única direção. É um tipo de Modelo de Linguagem Ampla (LLM) e é considerado uma tecnologia fundamental para muitas aplicações modernas de PNL.

Como funciona o Bert

A principal inovação do BERT reside na sua abordagem de formação bidirecional, que se baseia na arquitetura do Transformer. Ao contrário dos modelos anteriores que lêem o texto sequencialmente, o mecanismo de atenção do BERT permite-lhe considerar a frase inteira de uma só vez. Para conseguir esta compreensão bidirecional durante o pré-treino, o BERT utiliza duas estratégias principais:

Modelo de linguagem mascarada (MLM): Nesta tarefa, algumas palavras numa frase são ocultadas aleatoriamente, ou "mascaradas", e a tarefa do modelo é prever as palavras mascaradas originais com base nas palavras não mascaradas circundantes. Isto obriga o modelo a aprender relações contextuais profundas em ambas as direcções.
Previsão da frase seguinte (NSP): O modelo recebe duas frases e tem de prever se a segunda frase é a que se segue logicamente à primeira no texto original. Isto ajuda o BERT a compreender as relações entre frases, o que é crucial para tarefas como a resposta a perguntas e a análise de parágrafos.

Após esta pré-treino extensivo num corpus massivo de texto, o BERT pode ser adaptado a tarefas específicas através de um processo designado por fine-tuning. Este processo envolve o treino adicional do modelo num conjunto de dados mais pequeno e específico da tarefa, tornando-o uma ferramenta altamente versátil para programadores e investigadores. Muitos modelos BERT pré-treinados estão acessíveis através de plataformas como a Hugging Face.

Aplicações no mundo real

A capacidade do BERT para compreender as nuances da linguagem conduziu a melhorias significativas em várias aplicações de Inteligência Artificial (IA) do mundo real:

Motores de pesquisa: A Pesquisa Google incorporou o BERT para compreender melhor as consultas dos utilizadores, especialmente as conversacionais ou complexas, conduzindo a resultados de pesquisa mais relevantes. Por exemplo, o BERT ajuda a compreender a intenção por detrás de pesquisas como "pode arranjar medicamentos para alguém da farmácia" ao compreender a importância de preposições como "para" e "para".
Chatbots e assistentes virtuais: O BERT melhora a capacidade dos chatbots e assistentes virtuais para compreenderem os pedidos dos utilizadores com maior precisão, manterem o contexto nas conversas e fornecerem respostas mais úteis no serviço ao cliente, sistemas de reservas e recuperação de informações.
Análise de sentimento: As empresas utilizam modelos baseados no BERT para analisar as opiniões dos clientes, os comentários nas redes sociais e as respostas a inquéritos para avaliar a opinião pública e o feedback dos produtos com maior precisão.
Sumarização de texto e resposta a perguntas: O BERT pode ser aperfeiçoado para criar sistemas que resumam automaticamente documentos longos ou respondam a perguntas com base numa determinada passagem de texto. Isto é avaliado em conjuntos de dados como o Stanford Question Answering Dataset (SQuAD).

Bert vs. Outros modelos

É importante distinguir o BERT de outros modelos de IA:

vs. GPT: Embora ambos sejam LLMs baseados em transformadores, o BERT é um modelo apenas de codificador concebido para compreender o contexto em ambas as direcções. Isto torna-o excelente em tarefas analíticas como a análise de sentimentos, o reconhecimento de entidades nomeadas (NER) e a classificação de texto. Em contraste, os modelos GPT são centrados no descodificador e lêem o texto numa única direção (da esquerda para a direita), o que os torna optimizados para gerar texto novo e coerente.
vs. Modelos de Visão por Computador: O BERT processa e compreende texto, o que é fundamentalmente diferente dos modelos de Visão por Computador (CV) como o Ultralytics YOLO. Modelos de visão como o YOLO11 analisam pixels em imagens e vídeos para realizar tarefas como deteção de objectos ou segmentação de instâncias. Enquanto o BERT interpreta a linguagem, a arquitetura Transformer que popularizou inspirou avanços na CV, levando a modelos como o Vision Transformer (ViT) utilizado em modelos como o RT-DETR.

Plataformas como o Ultralytics HUB facilitam a formação e a implementação de vários modelos de IA, incluindo os modelos baseados nos princípios do Transformer. O desenvolvimento do BERT e de modelos semelhantes envolve frequentemente estruturas de aprendizagem automática padrão, como o PyTorch e o TensorFlow.

BERT (Bidirectional Encoder Representations from Transformers)

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Treine modelos YOLO de forma simples com o Ultralytics HUB

Como funciona o Bert

Aplicações no mundo real

Bert vs. Outros modelos

Ler mais nesta categoria

A evolução e o futuro da robótica na indústria transformadora

Melhore a vigilância inteligente com o Ultralytics YOLO11

Um guia sobre a arquitetura U-Net e as suas aplicações

Junte-se à comunidade Ultralytics