Glossário

Aprendizagem por reforço

Descubra a aprendizagem por reforço, em que os agentes optimizam as acções através de tentativa e erro para maximizar as recompensas. Explore conceitos, aplicações e benefícios!

A aprendizagem por reforço (RL) é um domínio da aprendizagem automática (ML) em que um agente inteligente aprende a tomar decisões óptimas através de tentativa e erro. Ao contrário de outros paradigmas de aprendizagem, o agente não recebe instruções sobre as acções a tomar. Em vez disso, interage com um ambiente e recebe feedback sob a forma de recompensas ou penalizações. O objetivo fundamental do agente é aprender uma estratégia, conhecida como política, que maximize a sua recompensa acumulada ao longo do tempo. Esta abordagem é inspirada na psicologia comportamental e é particularmente poderosa para resolver problemas de tomada de decisões sequenciais, tal como descrito no texto fundamental de Sutton e Barto.

Como funciona a aprendizagem por reforço

O processo de RL é modelado como um ciclo de feedback contínuo que envolve vários componentes-chave:

  • Agente: O aprendiz e o decisor, como um robô ou um programa de jogo.
  • Ambiente: O mundo externo com o qual o agente interage.
  • Estado: Uma imagem instantânea do ambiente num momento específico, que fornece ao agente as informações necessárias para tomar uma decisão.
  • Ação: Um movimento selecionado pelo agente a partir de um conjunto de opções possíveis.
  • Recompensa: Um sinal numérico enviado do ambiente para o agente após cada ação, indicando quão desejável foi a ação.

O agente observa o estado atual do ambiente, executa uma ação e recebe uma recompensa juntamente com o estado seguinte. Este ciclo repete-se e, através desta experiência, o agente aperfeiçoa gradualmente a sua política para favorecer acções que conduzam a recompensas mais elevadas a longo prazo. O quadro formal para este problema é frequentemente descrito por um Processo de Decisão de Markov (MDP). Os algoritmos populares de RL incluem Q-learning e Policy Gradients.

Comparação com outros paradigmas de aprendizagem

A RL é distinta dos outros tipos principais de aprendizagem automática:

Aplicações no mundo real

A RL alcançou um sucesso notável numa variedade de domínios complexos:

  • Jogar jogos: Os agentes de RL alcançaram um desempenho sobre-humano em jogos complexos. Um exemplo proeminente é o AlphaGo da DeepMind, que aprendeu a derrotar os melhores jogadores de Go do mundo. Outro é o trabalho da OpenAI no Dota 2, em que um agente aprendeu estratégias de equipa complexas.
  • Robótica: A RL é utilizada para treinar robôs para executar tarefas complexas como a manipulação de objectos, a montagem e a locomoção. Em vez de ser explicitamente programado, um robô pode aprender a andar ou a agarrar objectos sendo recompensado por tentativas bem sucedidas num ambiente simulado ou real. Esta é uma área chave de investigação em instituições como o Laboratório de Investigação em Inteligência Artificial de Berkeley (BAIR).
  • Gestão de recursos: Otimização de operações em sistemas complexos, como a gestão do fluxo de tráfego nas cidades, o equilíbrio de cargas em redes de energia e a otimização de reacções químicas.
  • Sistemas de recomendação: A RL pode ser utilizada para otimizar a sequência de itens recomendados a um utilizador para maximizar o envolvimento e a satisfação a longo prazo, em vez de apenas cliques imediatos.

Relevância no ecossistema de IA

A Aprendizagem por Reforço é uma componente crucial do panorama mais vasto da Inteligência Artificial (IA), especialmente para a criação de sistemas autónomos. Embora empresas como a Ultralytics se especializem em modelos de IA de visão, como o Ultralytics YOLO, para tarefas como a deteção de objectos e a segmentação de instâncias utilizando a aprendizagem supervisionada, as capacidades de perceção destes modelos são contributos essenciais para os agentes de RL.

Por exemplo, um robô pode utilizar um modelo YOLO para a perceção, implementado através do Ultralytics HUB, para compreender o que o rodeia (o "estado"). Uma política de RL utiliza então esta informação para decidir o seu próximo passo. Esta sinergia entre a Visão por Computador (CV) para a perceção e a RL para a tomada de decisões é fundamental para a construção de sistemas inteligentes. Estes sistemas são frequentemente desenvolvidos utilizando estruturas como PyTorch e TensorFlow e são frequentemente testados em ambientes de simulação padronizados como o Gymnasium (anteriormente OpenAI Gym). Para melhorar o alinhamento do modelo com as preferências humanas, técnicas como a Aprendizagem por Reforço a partir do Feedback Humano (RLHF) também estão a tornar-se cada vez mais importantes neste domínio. O progresso na RL é continuamente impulsionado por organizações como a DeepMind e conferências académicas como a NeurIPS.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência