Glossário

Aprendizagem por transferência

Desbloqueia o poder da aprendizagem por transferência para poupar tempo, aumentar o desempenho da IA e lidar com novas tarefas com dados limitados utilizando modelos pré-treinados.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A aprendizagem por transferência é uma técnica de aprendizagem automática (ML) em que um modelo desenvolvido para uma tarefa específica é reutilizado como ponto de partida para um modelo numa segunda tarefa relacionada. Em vez de construir um modelo a partir do zero, o que requer dados e recursos computacionais significativos, a aprendizagem por transferência aproveita o conhecimento (caraterísticas, padrões e pesos) adquirido numa tarefa de origem para melhorar a aprendizagem numa tarefa de destino. Esta abordagem é particularmente vantajosa quando a tarefa alvo tem dados rotulados limitados, acelerando significativamente o processo de formação e conduzindo frequentemente a um melhor desempenho em comparação com a formação apenas no conjunto de dados alvo.

Como funciona a aprendizagem por transferência

A ideia central subjacente à aprendizagem por transferência é que um modelo treinado num conjunto de dados grande e geral, como o ImageNet para tarefas de imagem ou um corpus de texto maciço para o Processamento de Linguagem Natural (PLN), aprende caraterísticas gerais que são úteis para muitas outras tarefas relacionadas. Por exemplo, na visão computacional (CV), as camadas iniciais de uma rede neural convolucional (CNN) podem aprender a detetar arestas, texturas e formas simples, que são elementos visuais fundamentais aplicáveis a vários problemas de reconhecimento de imagens.

Ao aplicar a aprendizagem por transferência, começa normalmente com um modelo pré-treinado. Dependendo da semelhança entre as tarefas de origem e de destino e do tamanho do conjunto de dados de destino, podes:

  1. Utiliza o modelo pré-treinado como um extrator de caraterísticas: Congela os pesos das camadas iniciais (a espinha dorsal) e treina apenas a classificação final ou as camadas de deteção no novo conjunto de dados. Isto é comum quando o conjunto de dados alvo é pequeno. Um exemplo é a utilização YOLOv5 através do congelamento de camadas.
  2. Afina o modelo pré-treinado: Descongela algumas ou todas as camadas pré-treinadas e continua a treiná-las no novo conjunto de dados, normalmente com uma taxa de aprendizagem mais baixa. Isto permite que o modelo adapte as caraterísticas aprendidas mais especificamente às nuances da tarefa alvo. Esta é uma estratégia comum quando o conjunto de dados alvo é maior. O ajuste fino é frequentemente considerado um tipo específico de aprendizagem por transferência.

Aprendizagem por transferência vs. conceitos relacionados

  • Afinação: Embora intimamente relacionado e muitas vezes utilizado de forma intercambiável em alguns contextos, o ajuste fino refere-se especificamente ao processo de descongelamento e treino adicional dos pesos de um modelo pré-treinado numa nova tarefa. É um método comum utilizado no âmbito da estratégia mais alargada da aprendizagem por transferência.
  • Treina a partir do zero: Envolve a inicialização aleatória dos pesos do modelo e o treino de todo o modelo apenas no conjunto de dados alvo. Requer uma grande quantidade de dados e poder computacional, que a aprendizagem por transferência pretende reduzir.
  • Aprendizagem Zero-Shot e Aprendizagem Few-Shot: Estas técnicas têm como objetivo permitir que os modelos executem tarefas com muito poucos ou nenhuns exemplos das classes-alvo, muitas vezes aproveitando o conhecimento aprendido durante o pré-treino de formas mais complexas do que a aprendizagem por transferência padrão ou o ajuste fino. Modelos como o CLIP são exemplos utilizados nestes cenários.

Aplicações no mundo real

A aprendizagem por transferência é amplamente aplicada em vários domínios:

  • Visão computacional:
  • Processamento de linguagem natural (PNL):
    • Análise de sentimentos: Afinação de grandes modelos de linguagem como o BERT ou o GPT, que são pré-treinados em grandes quantidades de dados de texto, para classificar o sentimento de tipos específicos de texto (por exemplo, análises de produtos, publicações em redes sociais). Hugging Face Transformers fornece muitos desses modelos pré-treinados.
    • Reconhecimento de entidades nomeadas (NER): Adaptação de modelos linguísticos pré-treinados para identificar entidades específicas (como nomes, localizações, organizações) em textos de domínios específicos (por exemplo, documentos jurídicos, registos médicos).
    • Chatbots: Utiliza modelos de linguagem pré-treinados como base para construir agentes de conversação capazes de compreender e responder a questões de utilizadores em domínios específicos.

Ferramentas e estruturas

Plataformas como o Ultralytics HUB simplificam o processo de aplicação da aprendizagem por transferência, fornecendo modelos pré-treinados (como o Ultralytics YOLOv8 e YOLO11) e ferramentas para facilitar a formação personalizada em conjuntos de dados específicos do utilizador. Estruturas como PyTorch e TensorFlow também oferecem um vasto apoio e tutoriais para a implementação de fluxos de trabalho de aprendizagem por transferência. Para uma compreensão teórica mais profunda, recursos como a visão geral do Stanford CS231n sobre a aprendizagem por transferência ou inquéritos académicos como"A Survey on Deep Transfer Learning" fornecem informações valiosas.

Lê tudo