Glossário

Modelo de fundação

Descobre como os modelos de fundação revolucionam a IA com arquitecturas escaláveis, pré-treino alargado e adaptabilidade a diversas aplicações.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os modelos de base representam uma mudança de paradigma significativa na Inteligência Artificial (IA), caracterizada pela sua escala maciça e pelo treino em conjuntos de dados vastos e diversificados. Ao contrário dos modelos tradicionais de aprendizagem automática (ML) concebidos para tarefas específicas, os modelos de base são pré-treinados em dados vastos, o que lhes permite serem adaptados - ou aperfeiçoados - parauma vasta gama de aplicações a jusante com relativamente poucos dados específicos de tarefas. Esta abordagem, que muitas vezes utiliza a aprendizagem por transferência, acelera o desenvolvimento da IA e torna as capacidades poderosas mais acessíveis. O termo foi popularizado pelo Stanford Institute for Human-Centered Artificial Intelligence (HAI).

Caraterísticas principais dos modelos de fundação

Os modelos de fundação são definidos por três caraterísticas principais: escala, generalidade e adaptabilidade.

  1. Escala: São treinados em conjuntos de dados à escala da Web que contêm texto, imagens, código e outros tipos de dados, envolvendo frequentemente milhares de milhões ou triliões de pontos de dados. Possuem tipicamente milhares de milhões de parâmetros, exigindo recursos computacionais significativos (GPU) para o treino.
  2. Generalidade: O extenso pré-treinamento dá a estes modelos uma ampla compreensão dos padrões, sintaxe, semântica e contexto dos seus dados de treino. Isto permite-lhes ter um bom desempenho em tarefas para as quais não foram explicitamente treinados, por vezes através da aprendizagem zero-shot ou da aprendizagem few-shot.
  3. Adaptabilidade: A sua principal força reside na capacidade de serem adaptados a tarefas específicas através de um ajuste fino. Isto implica um treino adicional num conjunto de dados mais pequeno e específico da tarefa, reduzindo significativamente os dados e o tempo necessários em comparação com o treino de um modelo de raiz. Arquitecturas como a Transformer, conhecida por lidar com dados sequenciais e captar dependências de longo alcance, são normalmente utilizadas, em especial no Processamento de Linguagem Natural (PLN) e, cada vez mais, na Visão por Computador (CV).

Aplicações e exemplos

A versatilidade dos modelos de fundações impulsiona a inovação em vários domínios.

  • Processamento de linguagem natural: Modelos como o GPT-4 e o BERT são excelentes em tarefas como a geração de texto, tradução, resumo e alimentação de chatbots sofisticados. Por exemplo, uma empresa de apoio ao cliente pode afinar um modelo linguístico pré-treinado como o BERT nos seus bilhetes de apoio para criar um sistema interno de resposta a perguntas altamente preciso.
  • Visão por computador: Os modelos de base de visão como o CLIP (Contrastive Language-Image Pre-training) e o Segment Anything Model (SAM) tratam de tarefas como a classificação de imagens, a deteção de objectos e a segmentação de imagens. Por exemplo, uma empresa de tecnologia agrícola poderia adaptar SAM , afinando-o em imagens de drones para segmentar com precisão diferentes tipos de culturas ou identificar áreas afectadas por doenças, exigindo muito menos dados rotulados do que as abordagens tradicionais de aprendizagem supervisionada.
  • Aplicações multimodais: Os modelos estão cada vez mais a ser treinados em vários tipos de dados (por exemplo, texto e imagens), permitindo tarefas como gerar imagens a partir de descrições de texto(texto para imagem) ou responder a perguntas sobre imagens.

Modelos de fundação vs. modelos tradicionais

A principal diferença reside no âmbito e na possibilidade de reutilização. Os modelos tradicionais de ML são normalmente treinados para uma única tarefa específica, utilizando um conjunto de dados adaptado. Se surgir uma nova tarefa, é frequentemente necessário construir e treinar um novo modelo de raiz. No entanto, os modelos de base fornecem uma base reutilizável. O seu amplo pré-treinamento capta conhecimentos gerais, que podem depois ser especializados de forma eficiente.

Este paradigma oferece vantagens como a redução da necessidade de recolha e anotação exaustiva de dados para cada nova tarefa e uma implementação potencialmente mais rápida do modelo. No entanto, os desafios incluem o imenso custo computacional e a energia necessários para o pré-treinamento, o risco de herdar e amplificar os enviesamentos presentes nos dados de treino e considerações éticas significativas relativamente à sua potencial utilização indevida e impacto social. Plataformas como o Ultralytics HUB visam simplificar o processo de acesso, formação e implementação de modelos avançados de IA, ajudando os utilizadores a tirar partido destas poderosas tecnologias de forma eficaz.

Lê tudo