Explore o poder dos modelos básicos em IA. Aprenda a adaptar modelos de grande escala, como Ultralytics , para tarefas personalizadas usando a Ultralytics .
Um modelo básico representa uma mudança significativa de paradigma no campo da Inteligência Artificial (IA). Trata-se de um modelo de aprendizagem automática em grande escala, treinado com uma vasta quantidade de dados — muitas vezes abrangendo milhares de milhões de parâmetros — que pode ser adaptado a uma ampla gama de tarefas a jusante. Ao contrário dos modelos tradicionais de aprendizagem automática (ML), que são normalmente criados para um propósito específico e singular, como classificar um tipo específico de flor, um modelo básico aprende padrões, estruturas e relações amplas durante uma fase de pré-treinamento que consome muitos recursos. Essa ampla base de conhecimento permite que os desenvolvedores apliquem o modelo a novos problemas por meio da aprendizagem por transferência, reduzindo significativamente o tempo e os dados necessários para alcançar resultados de ponta.
O poder de um modelo de base reside no seu processo de desenvolvimento em duas etapas: pré-treinamento e ajuste fino. Durante o pré-treinamento, o modelo é exposto a conjuntos de dados massivos, como grandes porções da Internet, diversas bibliotecas de imagens ou extensos repositórios de código. Esta fase utiliza frequentemente a aprendizagem auto-supervisionada, uma técnica em que o modelo gera os seus próprios rótulos a partir da própria estrutura de dados, eliminando o gargalo da anotação manual de dados. Por exemplo, um modelo de linguagem pode aprender a prever a próxima palavra numa frase, enquanto um modelo de visão aprende a compreender contornos, texturas e permanência de objetos.
Depois de pré-treinado, o modelo funciona como um ponto de partida versátil. Através de um processo chamado ajuste fino, os programadores podem ajustar os pesos do modelo num conjunto de dados menor e específico do domínio. Essa capacidade é fundamental para a democratização da IA, pois permite que organizações com recursos computacionais limitados aproveitem arquiteturas poderosas. Os fluxos de trabalho modernos costumam utilizar ferramentas como a Ultralytics para otimizar esse processo de adaptação, permitindo um treinamento eficiente em conjuntos de dados personalizados sem a necessidade de construir uma rede neural do zero.
Os modelos de fundação servem como espinha dorsal para inovações em vários setores. A sua capacidade de generalização torna-os aplicáveis a tarefas que vão desde o processamento de linguagem natural até à visão computacional avançada .
Os programadores podem aproveitar os modelos básicos para realizar tarefas complexas com o mínimo de código. O exemplo a seguir demonstra como carregar um modelo YOLO26pré-treinado — um modelo básico de visão otimizado para aplicações em tempo real — e realizar a deteção de objetos numa imagem.
from ultralytics import YOLO
# Load a pre-trained YOLO26 foundation model
# 'n' stands for nano, the smallest and fastest version
model = YOLO("yolo26n.pt")
# Perform inference on an image to detect objects
# The model uses its pre-trained knowledge to identify common objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
É útil distinguir o «Modelo de Fundação» de conceitos relacionados no panorama da IA para compreender as suas funções específicas:
A evolução dos modelos de base está a avançar em direção à IA multimodal, em que um único sistema pode processar e relacionar informações de texto, imagens, áudio e dados de sensores simultaneamente. Pesquisas de instituições como o Instituto Stanford para IA Centrada no Ser Humano (HAI) destacam o potencial desses sistemas para raciocinar sobre o mundo de forma mais semelhante aos seres humanos. À medida que esses modelos se tornam mais eficientes, a implantação em dispositivos de computação de ponta torna-se cada vez mais viável, levando recursos poderosos de IA diretamente para smartphones, drones e sensores de IoT.