Explore os fundamentos do GPT (Generative Pre-trained Transformer). Aprenda como esses modelos funcionam e como integrá-los ao Ultralytics para visão.
GPT (Generative Pre-trained Transformer) refere-se a uma família de modelos de redes neurais concebidos para gerar texto semelhante ao humano e resolver tarefas complexas, prevendo o próximo elemento numa sequência. Estes modelos são construídos com base na arquitetura Transformer, utilizando especificamente blocos descodificadores que lhes permitem processar dados em paralelo, em vez de sequencialmente. O aspecto "pré-treinado" indica que o modelo passa por uma fase inicial de aprendizagem não supervisionada em conjuntos de dados massivos — abrangendo livros, artigos e sites — para aprender a estrutura estatística da linguagem. "Generativo" significa a capacidade principal do modelo: criar novos conteúdos em vez de simplesmente classificar entradas existentes.
No cerne de um modelo GPT está o mecanismo de atenção, uma técnica matemática que permite à rede ponderar a importância de diferentes palavras numa frase em relação umas às outras. Esse mecanismo permite que o modelo compreenda o contexto, as nuances e as dependências de longo alcance, como saber que um pronome no final de um parágrafo se refere a um substantivo mencionado no início.
Após o pré-treinamento inicial, esses modelos normalmente passam por um ajuste fino para se especializarem em tarefas específicas ou para se alinharem com os valores humanos. Técnicas como aprendizagem por reforço a partir de feedback humano (RLHF) são frequentemente utilizadas para garantir que o modelo produza respostas seguras, úteis e precisas. Este processo de duas etapas — pré-treinamento geral seguido de ajuste específico — é o que torna os modelos GPT modelos básicos versáteis .
Os modelos GPT foram além da investigação teórica e tornaram-se ferramentas práticas e cotidianas em vários setores.
Embora o GPT se destaque no Processamento de Linguagem Natural (NLP), ele é frequentemente combinado com a Visão Computacional (CV) para criar sistemas multimodais . Um fluxo de trabalho comum envolve o uso de um detetor de alta velocidade como o Ultralytics para identificar objetos em uma imagem e, em seguida, alimentar essa saída estruturada em um modelo GPT para gerar uma narrativa descritiva.
O exemplo a seguir demonstra como extrair nomes de objetos usando o YOLO26 para criar uma string de contexto para um prompt GPT :
from ultralytics import YOLO
# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to construct a text description
class_names = [model.names[int(cls)] for cls in results[0].boxes.cls]
# This string serves as the context for a GPT prompt
print(f"Detected objects for GPT context: {', '.join(class_names)}")
É útil distinguir o GPT de outras arquiteturas populares para compreender o seu papel específico.
Apesar das suas capacidades impressionantes, os modelos GPT enfrentam desafios como alucinações, em que geram informações falsas com confiança. Os investigadores estão a trabalhar ativamente para melhorar os protocolos de ética e segurança da IA. Além disso, a integração do GPT com ferramentas como a Ultralytics permite pipelines mais robustos, nos quais modelos de visão e linguagem trabalham em conjunto para resolver problemas complexos do mundo real.