Descobre a aprendizagem por reforço, em que os agentes optimizam as acções através de tentativa e erro para maximizar as recompensas. Explora conceitos, aplicações e vantagens!
A Aprendizagem por Reforço (AR) é uma área distinta da Aprendizagem Automática (AM) em que um agente aprende a tomar decisões executando acções num ambiente para atingir um objetivo específico. Ao contrário de outros paradigmas de aprendizagem automática, os agentes de aprendizagem por reforço não são explicitamente informados das acções a tomar. Em vez disso, aprendem por tentativa e erro, recebendo feedback sob a forma de recompensas ou penalizações com base nas suas acções. O objetivo fundamental do agente é aprender uma estratégia, conhecida como política, que maximize a sua recompensa acumulada ao longo do tempo.
A compreensão da RL envolve vários componentes-chave:
O processo de RL é iterativo. O agente observa o estado atual do ambiente, seleciona uma ação com base na sua política atual e executa essa ação. O ambiente transita para um novo estado e fornece um sinal de recompensa ao agente. O agente utiliza este sinal de recompensa para atualizar a sua política, com o objetivo de receber mais recompensas no futuro. Um aspeto crítico deste processo é o equilíbrio entre a exploração (experimentando novas acções para descobrir recompensas potencialmente melhores) e a exploração (utilizando acções conhecidas que produzem recompensas elevadas). Este ciclo de aprendizagem é frequentemente formalizado através de processos de decisão de Markov (MDP).
A RL difere significativamente de outros paradigmas primários de ML:
Embora as técnicas da Aprendizagem Profunda (AP), como a utilização de Redes Neuronais (RN), sejam frequentemente utilizadas na Aprendizagem por Reforço Profunda (AR) para lidar com espaços de estado complexos (como imagens) e políticas ou funções de valor aproximadas, o mecanismo de aprendizagem fundamental baseado em recompensas continua a ser distinto.
A RL tem demonstrado um sucesso notável em vários domínios complexos:
Em muitas aplicações de RL do mundo real, em particular na robótica e nos sistemas autónomos, a Visão por Computador (CV) desempenha um papel crucial. Modelos como Ultralytics YOLO podem processar a entrada visual (por exemplo, imagens de câmaras) para extrair informações relevantes sobre o ambiente, formando a representação do "estado" utilizada pelo agente de RL. Isto permite que os agentes percebam o que os rodeia e tomem decisões informadas com base em dados visuais. Ferramentas como o OpenAI Gym e simuladores especializados são frequentemente utilizados para treinar estes agentes de RL baseados na visão. Embora os modelos Ultralytics se concentrem principalmente em tarefas de perceção através de aprendizagem supervisionada, os seus resultados podem servir como entradas vitais para sistemas de RL que controlam agentes físicos ou navegam em ambientes visuais complexos. O treino e a implementação destes sistemas complexos podem ser geridos através de plataformas como o Ultralytics HUB.
Para uma compreensão básica dos conceitos de RL, recursos como os capítulos introdutórios do livro de Sutton e Barto sobre Aprendizagem por Reforço são altamente recomendados.