Aprendizagem por reforço

Descubra a aprendizagem por reforço, em que os agentes optimizam as acções através de tentativa e erro para maximizar as recompensas. Explore conceitos, aplicações e benefícios!

A aprendizagem por reforço (RL) é um domínio da aprendizagem automática (ML) em que um agente inteligente aprende a tomar decisões óptimas através de tentativa e erro. Ao contrário de outros paradigmas de aprendizagem, o agente não recebe instruções sobre as acções a tomar. Em vez disso, interage com um ambiente e recebe feedback sob a forma de recompensas ou penalizações. O objetivo fundamental do agente é aprender uma estratégia, conhecida como política, que maximize a sua recompensa acumulada ao longo do tempo. Esta abordagem é inspirada na psicologia comportamental e é particularmente poderosa para resolver problemas de tomada de decisões sequenciais, tal como descrito no texto fundamental de Sutton e Barto.

Como funciona a aprendizagem por reforço

O processo de RL é modelado como um ciclo de feedback contínuo que envolve vários componentes-chave:

Agente: O aprendiz e o decisor, como um robô ou um programa de jogo.
Ambiente: O mundo externo com o qual o agente interage.
Estado: Uma imagem instantânea do ambiente num momento específico, que fornece ao agente as informações necessárias para tomar uma decisão.
Ação: Um movimento selecionado pelo agente a partir de um conjunto de opções possíveis.
Recompensa: Um sinal numérico enviado do ambiente para o agente após cada ação, indicando quão desejável foi a ação.

O agente observa o estado atual do ambiente, executa uma ação e recebe uma recompensa juntamente com o estado seguinte. Este ciclo repete-se e, através desta experiência, o agente aperfeiçoa gradualmente a sua política para favorecer acções que conduzam a recompensas mais elevadas a longo prazo. O quadro formal para este problema é frequentemente descrito por um Processo de Decisão de Markov (MDP). Os algoritmos populares de RL incluem Q-learning e Policy Gradients.

Comparação com outros paradigmas de aprendizagem

A RL é distinta dos outros tipos principais de aprendizagem automática:

Aprendizagem supervisionada: Na aprendizagem supervisionada, um modelo aprende a partir de um conjunto de dados que está totalmente rotulado com respostas corretas. Por exemplo, um modelo de classificação de imagens é treinado em imagens com rótulos explícitos. Em contraste, a RL aprende a partir de sinais de recompensa sem supervisão explícita sobre qual é a melhor ação em cada passo. Pode explorar uma comparação detalhada da aprendizagem supervisionada e não supervisionada.
Aprendizagem não supervisionada: Este paradigma envolve a procura de padrões ou estruturas ocultas em dados não rotulados. O seu objetivo é a exploração de dados, como a utilização do agrupamento k-means, em vez da tomada de decisões para maximizar uma recompensa.
Aprendizagem por reforço profundo (DRL): A DRL não é um paradigma diferente, mas uma forma avançada de RL que utiliza redes neuronais profundas para lidar com espaços de ação e de estado complexos e de elevada dimensão. Isto permite que a RL se adapte a problemas anteriormente considerados intratáveis, como o processamento de dados brutos de pixéis de uma câmara para veículos autónomos.

Aplicações no mundo real

A RL alcançou um sucesso notável numa variedade de domínios complexos:

Jogar jogos: Os agentes de RL alcançaram um desempenho sobre-humano em jogos complexos. Um exemplo proeminente é o AlphaGo da DeepMind, que aprendeu a derrotar os melhores jogadores de Go do mundo. Outro é o trabalho da OpenAI no Dota 2, em que um agente aprendeu estratégias de equipa complexas.
Robótica: A RL é utilizada para treinar robôs para executar tarefas complexas como a manipulação de objectos, a montagem e a locomoção. Em vez de ser explicitamente programado, um robô pode aprender a andar ou a agarrar objectos sendo recompensado por tentativas bem sucedidas num ambiente simulado ou real. Esta é uma área chave de investigação em instituições como o Laboratório de Investigação em Inteligência Artificial de Berkeley (BAIR).
Gestão de recursos: Otimização de operações em sistemas complexos, como a gestão do fluxo de tráfego nas cidades, o equilíbrio de cargas em redes de energia e a otimização de reacções químicas.
Sistemas de recomendação: A RL pode ser utilizada para otimizar a sequência de itens recomendados a um utilizador para maximizar o envolvimento e a satisfação a longo prazo, em vez de apenas cliques imediatos.

Relevância no ecossistema de IA

A Aprendizagem por Reforço é uma componente crucial do panorama mais vasto da Inteligência Artificial (IA), especialmente para a criação de sistemas autónomos. Embora empresas como a Ultralytics se especializem em modelos de IA de visão, como o Ultralytics YOLO, para tarefas como a deteção de objectos e a segmentação de instâncias utilizando a aprendizagem supervisionada, as capacidades de perceção destes modelos são contributos essenciais para os agentes de RL.

Por exemplo, um robô pode utilizar um modelo YOLO para a perceção, implementado através do Ultralytics HUB, para compreender o que o rodeia (o "estado"). Uma política de RL utiliza então esta informação para decidir o seu próximo passo. Esta sinergia entre a Visão por Computador (CV) para a perceção e a RL para a tomada de decisões é fundamental para a construção de sistemas inteligentes. Estes sistemas são frequentemente desenvolvidos utilizando estruturas como PyTorch e TensorFlow e são frequentemente testados em ambientes de simulação padronizados como o Gymnasium (anteriormente OpenAI Gym). Para melhorar o alinhamento do modelo com as preferências humanas, técnicas como a Aprendizagem por Reforço a partir do Feedback Humano (RLHF) também estão a tornar-se cada vez mais importantes neste domínio. O progresso na RL é continuamente impulsionado por organizações como a DeepMind e conferências académicas como a NeurIPS.

Aprendizagem por reforço

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Treine modelos YOLO de forma simples com o Ultralytics HUB

Como funciona a aprendizagem por reforço

Comparação com outros paradigmas de aprendizagem

Aplicações no mundo real

Relevância no ecossistema de IA

Ler mais nesta categoria

Principais destaques da Ultralytics no WAIC 2025 em Xangai

Como é que o chá é feito utilizando tecnologias como a Vision AI?

Trazer o Ultralytics YOLO11 para os dispositivos Apple através do CoreML

Junte-se à comunidade Ultralytics