Descobre a aprendizagem por reforço, em que os agentes optimizam as acções através de tentativa e erro para maximizar as recompensas. Explora conceitos, aplicações e vantagens!
A Aprendizagem por Reforço (AR) é um tipo de Aprendizagem Automática (AM) em que um agente inteligente aprende a tomar uma sequência de decisões tentando maximizar uma recompensa que recebe pelas suas acções. Ao contrário da aprendizagem supervisionada, que aprende com exemplos rotulados, ou da aprendizagem não supervisionada, que encontra padrões em dados não rotulados, a RL aprende por tentativa e erro, interagindo com um ambiente. O agente recebe feedback sob a forma de recompensas ou penalizações com base nas acções que realiza, orientando o seu processo de aprendizagem no sentido de atingir um objetivo específico.
Vários componentes-chave definem um sistema de Aprendizagem por Reforço:
Um desafio fundamental na RL é o tradeoff exploração-exploração: o agente deve equilibrar a exploração de novas acções para descobrir recompensas potencialmente mais elevadas (exploração) com a escolha de acções que se sabe produzirem boas recompensas (exploração).
O processo de RL é tipicamente iterativo. O agente observa o estado atual do ambiente, seleciona uma ação com base na sua política atual, executa a ação e recebe uma recompensa (ou penalização) e o estado seguinte do ambiente. Este feedback é utilizado para atualizar a política ou a função de valor do agente, melhorando a sua tomada de decisões ao longo do tempo. Os algoritmos comuns de RL incluem os métodos Q-learning, SARSA e Policy Gradient, cada um empregando estratégias diferentes para aprender e atualizar a política. A Aprendizagem por Reforço Profundo (DRL) combina a RL com técnicas de aprendizagem profunda, utilizando redes neuronais (NN) para aproximar políticas ou funções de valor, permitindo que a RL resolva problemas com espaços de estado complexos e de elevada dimensão, como imagens ou dados de sensores.
A RL difere significativamente de outros paradigmas de ML:
A RL permitiu avanços em vários domínios:
A Aprendizagem por Reforço é uma componente crucial do panorama mais vasto da Inteligência Artificial (IA), especialmente para a criação de sistemas autónomos capazes de tomar decisões complexas. Embora empresas como a Ultralytics se especializem em modelos de IA de visão como Ultralytics YOLO para tarefas como a deteção de objectos e a segmentação de instâncias utilizando a aprendizagem supervisionada, as capacidades de perceção fornecidas por estes modelos são frequentemente inputs (estados) essenciais para os agentes de RL. Por exemplo, um robô pode utilizar um modelo de deteção de objectos implementado através do Ultralytics HUB para compreender o que o rodeia antes de uma política de RL decidir o seu próximo movimento. A compreensão da RL fornece um contexto para a forma como a perceção avançada se enquadra na construção de sistemas inteligentes e autónomos, frequentemente desenvolvidos com recurso a estruturas como PyTorch e testados em ambientes de simulação como o Gymnasium (anteriormente OpenAI Gym). Muitas aplicações do mundo real envolvem a integração da perceção(Visão por Computador) com a tomada de decisões (RL).