Glossário

Aprendizagem por reforço

Descobre a aprendizagem por reforço, em que os agentes optimizam as acções através de tentativa e erro para maximizar as recompensas. Explora conceitos, aplicações e vantagens!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Aprendizagem por Reforço (AR) é um tipo de Aprendizagem Automática (AM) em que um agente inteligente aprende a tomar uma sequência de decisões tentando maximizar uma recompensa que recebe pelas suas acções. Ao contrário da aprendizagem supervisionada, que aprende com exemplos rotulados, ou da aprendizagem não supervisionada, que encontra padrões em dados não rotulados, a RL aprende por tentativa e erro, interagindo com um ambiente. O agente recebe feedback sob a forma de recompensas ou penalizações com base nas acções que realiza, orientando o seu processo de aprendizagem no sentido de atingir um objetivo específico.

Conceitos fundamentais

Vários componentes-chave definem um sistema de Aprendizagem por Reforço:

  • Agente: O aprendiz ou a entidade decisória que interage com o ambiente.
  • Ambiente: O sistema externo ou mundo no qual o agente opera.
  • Estado: Uma representação da situação atual ou da configuração do ambiente percebida pelo agente.
  • Ação: Uma decisão ou movimento feito pelo agente dentro do ambiente.
  • Recompensa: Um sinal numérico recebido do ambiente após a realização de uma ação, indicando quão boa ou má foi essa ação num determinado estado. O objetivo do agente é normalmente maximizar a recompensa acumulada ao longo do tempo.
  • Política: A estratégia ou mapeamento que o agente utiliza para determinar a próxima ação com base no estado atual. É essencialmente o que o agente aprende.
  • Função de valor: Uma previsão das recompensas futuras esperadas que podem ser obtidas a partir de um determinado estado ou tomando uma ação específica num determinado estado, seguindo uma determinada política.
  • Processo de Decisão de Markov (MDP): Uma estrutura matemática normalmente utilizada para modelar problemas de RL, definindo as interações entre o agente e o ambiente.

Um desafio fundamental na RL é o tradeoff exploração-exploração: o agente deve equilibrar a exploração de novas acções para descobrir recompensas potencialmente mais elevadas (exploração) com a escolha de acções que se sabe produzirem boas recompensas (exploração).

Como funciona a aprendizagem por reforço

O processo de RL é tipicamente iterativo. O agente observa o estado atual do ambiente, seleciona uma ação com base na sua política atual, executa a ação e recebe uma recompensa (ou penalização) e o estado seguinte do ambiente. Este feedback é utilizado para atualizar a política ou a função de valor do agente, melhorando a sua tomada de decisões ao longo do tempo. Os algoritmos comuns de RL incluem os métodos Q-learning, SARSA e Policy Gradient, cada um empregando estratégias diferentes para aprender e atualizar a política. A Aprendizagem por Reforço Profundo (DRL) combina a RL com técnicas de aprendizagem profunda, utilizando redes neuronais (NN) para aproximar políticas ou funções de valor, permitindo que a RL resolva problemas com espaços de estado complexos e de elevada dimensão, como imagens ou dados de sensores.

Comparação com outros paradigmas de aprendizagem

A RL difere significativamente de outros paradigmas de ML:

  • Aprendizagem supervisionada: Aprende a partir de um conjunto de dados que contém exemplos rotulados (pares de entrada-saída). O objetivo é aprender uma função de mapeamento que preveja as saídas para novas entradas. Exemplos incluem classificação e regressão de imagens. A RL aprende com a interação e o feedback (recompensas), e não com respostas corretas predefinidas.
  • Aprendizagem não supervisionada: Aprende padrões e estruturas a partir de dados não rotulados. Exemplos incluem o agrupamento e a redução da dimensionalidade. A RL é orientada para objectivos, aprendendo uma política para maximizar as recompensas, enquanto a aprendizagem não supervisionada se concentra na descoberta de estruturas de dados.

Aplicações no mundo real

A RL permitiu avanços em vários domínios:

Relevância no ecossistema de IA

A Aprendizagem por Reforço é uma componente crucial do panorama mais vasto da Inteligência Artificial (IA), especialmente para a criação de sistemas autónomos capazes de tomar decisões complexas. Embora empresas como a Ultralytics se especializem em modelos de IA de visão como Ultralytics YOLO para tarefas como a deteção de objectos e a segmentação de instâncias utilizando a aprendizagem supervisionada, as capacidades de perceção fornecidas por estes modelos são frequentemente inputs (estados) essenciais para os agentes de RL. Por exemplo, um robô pode utilizar um modelo de deteção de objectos implementado através do Ultralytics HUB para compreender o que o rodeia antes de uma política de RL decidir o seu próximo movimento. A compreensão da RL fornece um contexto para a forma como a perceção avançada se enquadra na construção de sistemas inteligentes e autónomos, frequentemente desenvolvidos com recurso a estruturas como PyTorch e testados em ambientes de simulação como o Gymnasium (anteriormente OpenAI Gym). Muitas aplicações do mundo real envolvem a integração da perceção(Visão por Computador) com a tomada de decisões (RL).

Lê tudo