Descubra a aprendizagem por reforço, em que os agentes optimizam as acções através de tentativa e erro para maximizar as recompensas. Explore conceitos, aplicações e benefícios!
A aprendizagem por reforço (RL) é um domínio da aprendizagem automática (ML) em que um agente inteligente aprende a tomar decisões óptimas através de tentativa e erro. Ao contrário de outros paradigmas de aprendizagem, o agente não recebe instruções sobre as acções a tomar. Em vez disso, interage com um ambiente e recebe feedback sob a forma de recompensas ou penalizações. O objetivo fundamental do agente é aprender uma estratégia, conhecida como política, que maximize a sua recompensa acumulada ao longo do tempo. Esta abordagem é inspirada na psicologia comportamental e é particularmente poderosa para resolver problemas de tomada de decisões sequenciais, tal como descrito no texto fundamental de Sutton e Barto.
O processo de RL é modelado como um ciclo de feedback contínuo que envolve vários componentes-chave:
O agente observa o estado atual do ambiente, executa uma ação e recebe uma recompensa juntamente com o estado seguinte. Este ciclo repete-se e, através desta experiência, o agente aperfeiçoa gradualmente a sua política para favorecer acções que conduzam a recompensas mais elevadas a longo prazo. O quadro formal para este problema é frequentemente descrito por um Processo de Decisão de Markov (MDP). Os algoritmos populares de RL incluem Q-learning e Policy Gradients.
A RL é distinta dos outros tipos principais de aprendizagem automática:
A RL alcançou um sucesso notável numa variedade de domínios complexos:
A Aprendizagem por Reforço é uma componente crucial do panorama mais vasto da Inteligência Artificial (IA), especialmente para a criação de sistemas autónomos. Embora empresas como a Ultralytics se especializem em modelos de IA de visão, como o Ultralytics YOLO, para tarefas como a deteção de objectos e a segmentação de instâncias utilizando a aprendizagem supervisionada, as capacidades de perceção destes modelos são contributos essenciais para os agentes de RL.
Por exemplo, um robô pode utilizar um modelo YOLO para a perceção, implementado através do Ultralytics HUB, para compreender o que o rodeia (o "estado"). Uma política de RL utiliza então esta informação para decidir o seu próximo passo. Esta sinergia entre a Visão por Computador (CV) para a perceção e a RL para a tomada de decisões é fundamental para a construção de sistemas inteligentes. Estes sistemas são frequentemente desenvolvidos utilizando estruturas como PyTorch e TensorFlow e são frequentemente testados em ambientes de simulação padronizados como o Gymnasium (anteriormente OpenAI Gym). Para melhorar o alinhamento do modelo com as preferências humanas, técnicas como a Aprendizagem por Reforço a partir do Feedback Humano (RLHF) também estão a tornar-se cada vez mais importantes neste domínio. O progresso na RL é continuamente impulsionado por organizações como a DeepMind e conferências académicas como a NeurIPS.