Explore os conceitos fundamentais da aprendizagem por reforço (RL). Saiba como os agentes usam o feedback para dominar tarefas e veja como Ultralytics potencializa os sistemas de visão RL.
A aprendizagem por reforço (RL) é um subconjunto orientado para objetivos da aprendizagem automática (ML), em que um sistema autónomo , conhecido como agente, aprende a tomar decisões realizando ações e recebendo feedback do seu ambiente. Ao contrário da aprendizagem supervisionada, que se baseia em conjuntos de dados estáticos rotulados com as respostas corretas, os algoritmos de RL aprendem através de um processo dinâmico de tentativa e erro. O agente interage com uma simulação ou com o mundo real, observando as consequências das suas ações para determinar quais estratégias produzem as maiores recompensas a longo prazo. Esta abordagem imita de perto o conceito psicológico de condicionamento operante, em que o comportamento é moldado por reforço positivo (recompensas) e reforço negativo (punições) ao longo do tempo.
Para entender como funciona o RL, é útil visualizá-lo como um ciclo contínuo de interação. Essa estrutura é frequentemente formalizada matematicamente como um Processo de Decisão de Markov (MDP), que estrutura a tomada de decisões em situações em que os resultados são parcialmente aleatórios e parcialmente controlados pelo tomador de decisão.
Os principais componentes deste ciclo de aprendizagem incluem:
A aprendizagem por reforço ultrapassou a fase de investigação teórica e passou a ser aplicada de forma prática e com grande impacto em vários setores.
Em muitas aplicações modernas, o «estado» que um agente observa é visual. Modelos de alto desempenho como o YOLO26 atuam como camada de percepção para agentes RL, convertendo imagens brutas em dados estruturados. Essas informações processadas — como a localização e a classe dos objetos — tornam-se o estado que a política RL usa para escolher uma ação.
O exemplo a seguir demonstra como usar o ultralytics pacote para processar um quadro de ambiente,
criando uma representação de estado (por exemplo, número de objetos) para um loop RL teórico.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
É importante distinguir a aprendizagem por reforço de outros paradigmas de aprendizagem automática:
À medida que o poder computacional aumenta, técnicas como Aprendizagem por Reforço a partir do Feedback Humano (RLHF) estão a refinar ainda mais a forma como os agentes aprendem, alinhando os seus objetivos mais estreitamente com valores humanos complexos e padrões de segurança . Os investigadores costumam usar ambientes padronizados, como o Gymnasium, para comparar e melhorar esses algoritmos. Para equipas que desejam gerir os conjuntos de dados necessários para as camadas de percepção desses agentes, a Ultralytics oferece ferramentas abrangentes para anotação e gestão de modelos.