Os modelos de base representam uma mudança de paradigma significativa na Inteligência Artificial (IA), caracterizada pela sua escala maciça e pelo treino em conjuntos de dados vastos e diversificados. Ao contrário dos modelos tradicionais de aprendizagem automática (ML) concebidos para tarefas específicas, os modelos de base são pré-treinados em dados vastos, o que lhes permite serem adaptados - ou aperfeiçoados - parauma vasta gama de aplicações a jusante com relativamente poucos dados específicos de tarefas. Esta abordagem, que muitas vezes utiliza a aprendizagem por transferência, acelera o desenvolvimento da IA e torna as capacidades poderosas mais acessíveis. O termo foi popularizado pelo Stanford Institute for Human-Centered Artificial Intelligence (HAI).
Caraterísticas principais dos modelos de fundação
Os modelos de fundação são definidos por três caraterísticas principais: escala, generalidade e adaptabilidade.
- Escala: São treinados em conjuntos de dados à escala da Web que contêm texto, imagens, código e outros tipos de dados, envolvendo frequentemente milhares de milhões ou triliões de pontos de dados. Possuem tipicamente milhares de milhões de parâmetros, exigindo recursos computacionais significativos (GPU) para o treino.
- Generalidade: O extenso pré-treinamento dá a estes modelos uma ampla compreensão dos padrões, sintaxe, semântica e contexto dos seus dados de treino. Isto permite-lhes ter um bom desempenho em tarefas para as quais não foram explicitamente treinados, por vezes através da aprendizagem zero-shot ou da aprendizagem few-shot.
- Adaptabilidade: A sua principal força reside na capacidade de serem adaptados a tarefas específicas através de um ajuste fino. Isto implica um treino adicional num conjunto de dados mais pequeno e específico da tarefa, reduzindo significativamente os dados e o tempo necessários em comparação com o treino de um modelo de raiz. Arquitecturas como a Transformer, conhecida por lidar com dados sequenciais e captar dependências de longo alcance, são normalmente utilizadas, em especial no Processamento de Linguagem Natural (PLN) e, cada vez mais, na Visão por Computador (CV).
Aplicações e exemplos
A versatilidade dos modelos de fundações impulsiona a inovação em vários domínios.
- Processamento de linguagem natural: Modelos como o GPT-4 e o BERT são excelentes em tarefas como a geração de texto, tradução, resumo e alimentação de chatbots sofisticados. Por exemplo, uma empresa de apoio ao cliente pode afinar um modelo linguístico pré-treinado como o BERT nos seus bilhetes de apoio para criar um sistema interno de resposta a perguntas altamente preciso.
- Visão por computador: Os modelos de base de visão como o CLIP (Contrastive Language-Image Pre-training) e o Segment Anything Model (SAM) tratam de tarefas como a classificação de imagens, a deteção de objectos e a segmentação de imagens. Por exemplo, uma empresa de tecnologia agrícola poderia adaptar SAM , afinando-o em imagens de drones para segmentar com precisão diferentes tipos de culturas ou identificar áreas afectadas por doenças, exigindo muito menos dados rotulados do que as abordagens tradicionais de aprendizagem supervisionada.
- Aplicações multimodais: Os modelos estão cada vez mais a ser treinados em vários tipos de dados (por exemplo, texto e imagens), permitindo tarefas como gerar imagens a partir de descrições de texto(texto para imagem) ou responder a perguntas sobre imagens.
Modelos de fundação vs. modelos tradicionais
A principal diferença reside no âmbito e na possibilidade de reutilização. Os modelos tradicionais de ML são normalmente treinados para uma única tarefa específica, utilizando um conjunto de dados adaptado. Se surgir uma nova tarefa, é frequentemente necessário construir e treinar um novo modelo de raiz. No entanto, os modelos de base fornecem uma base reutilizável. O seu amplo pré-treinamento capta conhecimentos gerais, que podem depois ser especializados de forma eficiente.
Este paradigma oferece vantagens como a redução da necessidade de recolha e anotação exaustiva de dados para cada nova tarefa e uma implementação potencialmente mais rápida do modelo. No entanto, os desafios incluem o imenso custo computacional e a energia necessários para o pré-treinamento, o risco de herdar e amplificar os enviesamentos presentes nos dados de treino e considerações éticas significativas relativamente à sua potencial utilização indevida e impacto social. Plataformas como o Ultralytics HUB visam simplificar o processo de acesso, formação e implementação de modelos avançados de IA, ajudando os utilizadores a tirar partido destas poderosas tecnologias de forma eficaz.