Glossário

Aprendizagem por reforço

Descobre a aprendizagem por reforço, em que os agentes optimizam as acções através de tentativa e erro para maximizar as recompensas. Explora conceitos, aplicações e vantagens!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Aprendizagem por Reforço (AR) é uma área distinta da Aprendizagem Automática (AM) em que um agente aprende a tomar decisões executando acções num ambiente para atingir um objetivo específico. Ao contrário de outros paradigmas de aprendizagem automática, os agentes de aprendizagem por reforço não são explicitamente informados das acções a tomar. Em vez disso, aprendem por tentativa e erro, recebendo feedback sob a forma de recompensas ou penalizações com base nas suas acções. O objetivo fundamental do agente é aprender uma estratégia, conhecida como política, que maximize a sua recompensa acumulada ao longo do tempo.

Conceitos fundamentais da aprendizagem por reforço

A compreensão da RL envolve vários componentes-chave:

  • Agente: O aprendiz ou tomador de decisões que interage com o ambiente.
  • Ambiente: O mundo ou sistema externo com o qual o agente interage. Fornece feedback ao agente.
  • Estado: Uma representação da situação atual ou da configuração do ambiente. Nas aplicações de visão por computador (CV), o estado pode ser derivado de dados de imagem.
  • Ação: Um movimento ou decisão tomada pelo agente, que influencia o estado do ambiente.
  • Recompensa: Um sinal de feedback numérico do ambiente que indica quão boa ou má foi a última ação do agente em relação ao objetivo.
  • Política: A estratégia ou mapeamento que o agente utiliza para determinar a próxima ação com base no estado atual. O objetivo da RL é encontrar a política óptima.

Como funciona a aprendizagem por reforço

O processo de RL é iterativo. O agente observa o estado atual do ambiente, seleciona uma ação com base na sua política atual e executa essa ação. O ambiente transita para um novo estado e fornece um sinal de recompensa ao agente. O agente utiliza este sinal de recompensa para atualizar a sua política, com o objetivo de receber mais recompensas no futuro. Um aspeto crítico deste processo é o equilíbrio entre a exploração (experimentando novas acções para descobrir recompensas potencialmente melhores) e a exploração (utilizando acções conhecidas que produzem recompensas elevadas). Este ciclo de aprendizagem é frequentemente formalizado através de processos de decisão de Markov (MDP).

Comparação com outros tipos de aprendizagem automática

A RL difere significativamente de outros paradigmas primários de ML:

  • Aprendizagem supervisionada: Aprende a partir de conjuntos de dados rotulados onde a saída correta é fornecida para cada entrada. A RL aprende a partir de sinais de recompensa sem rótulos explícitos de acções corretas.
  • Aprendizagem não supervisionada: Encontra padrões e estruturas em dados não rotulados. A RL centra-se na aprendizagem orientada por objectivos através da interação e do feedback.

Embora as técnicas da Aprendizagem Profunda (AP), como a utilização de Redes Neuronais (RN), sejam frequentemente utilizadas na Aprendizagem por Reforço Profunda (AR) para lidar com espaços de estado complexos (como imagens) e políticas ou funções de valor aproximadas, o mecanismo de aprendizagem fundamental baseado em recompensas continua a ser distinto.

Aplicações no mundo real

A RL tem demonstrado um sucesso notável em vários domínios complexos:

  1. Jogar jogos: Os agentes de RL alcançaram um desempenho sobre-humano em jogos complexos como o Go(AlphaGo da DeepMind) e vários jogos de vídeo(OpenAI Five em Dota 2). Estes agentes aprendem estratégias complexas através do auto-jogo, excedendo em muito as capacidades humanas. Esta capacidade é explorada em AI in Video Games.
  2. Robótica: A RL é utilizada para treinar robôs para executar tarefas como a locomoção, a manipulação de objectos e a montagem. Os robôs podem aprender capacidades motoras complexas em ambientes simulados ou diretamente através da interação com o mundo real, adaptando-se a circunstâncias imprevistas. Podes saber mais sobre a Integração da Robótica.
  3. Veículos autónomos: Os algoritmos de RL podem ser utilizados para otimizar as políticas de condução, tais como a tomada de decisões para mudança de faixa, fusão ou navegação em cruzamentos, contribuindo para os avanços discutidos em AI in Self-Driving Cars.
  4. Sistemas de recomendação: O RL pode personalizar as recomendações aprendendo as preferências do utilizador com base nas interações e no feedback ao longo do tempo, adaptando-se dinamicamente às mudanças de gostos. Saiba mais sobre sistemas de recomendação.

Aprendizagem por reforço e visão computacional

Em muitas aplicações de RL do mundo real, em particular na robótica e nos sistemas autónomos, a Visão por Computador (CV) desempenha um papel crucial. Modelos como Ultralytics YOLO podem processar a entrada visual (por exemplo, imagens de câmaras) para extrair informações relevantes sobre o ambiente, formando a representação do "estado" utilizada pelo agente de RL. Isto permite que os agentes percebam o que os rodeia e tomem decisões informadas com base em dados visuais. Ferramentas como o OpenAI Gym e simuladores especializados são frequentemente utilizados para treinar estes agentes de RL baseados na visão. Embora os modelos Ultralytics se concentrem principalmente em tarefas de perceção através de aprendizagem supervisionada, os seus resultados podem servir como entradas vitais para sistemas de RL que controlam agentes físicos ou navegam em ambientes visuais complexos. O treino e a implementação destes sistemas complexos podem ser geridos através de plataformas como o Ultralytics HUB.

Para uma compreensão básica dos conceitos de RL, recursos como os capítulos introdutórios do livro de Sutton e Barto sobre Aprendizagem por Reforço são altamente recomendados.

Lê tudo