Explore o Deep Reinforcement Learning (DRL) e como ele combina a tomada de decisões da IA com o deep learning. Aprenda a usar Ultralytics como uma camada de percepção hoje mesmo.
A aprendizagem por reforço profundo (DRL) é um subconjunto avançado da inteligência artificial (IA) que combina as capacidades de tomada de decisão da aprendizagem por reforço com o poder percetivo da aprendizagem profunda (DL). Enquanto a aprendizagem por reforço tradicional depende de métodos tabulares para mapear situações para ações, esses métodos têm dificuldades quando o ambiente é complexo ou visual. O DRL supera isso usando redes neurais para interpretar dados de entrada de alta dimensão , como quadros de vídeo ou leituras de sensores, permitindo que as máquinas aprendam estratégias eficazes diretamente da experiência bruta , sem instruções humanas explícitas.
Num sistema DRL, um agente de IA interage com um ambiente em etapas de tempo discretas. Em cada etapa, o agente observa o «estado» atual, seleciona uma ação com base numa política e recebe um sinal de recompensa indicando o sucesso ou o fracasso dessa ação. O objetivo principal é maximizar a recompensa acumulada ao longo do tempo.
O componente "profundo" refere-se ao uso de redes neurais profundas para aproximar a política (a estratégia de ação) ou a função de valor (a recompensa futura estimada). Isso permite que o agente processe dados não estruturados, utilizando visão computacional (CV) para "ver" o ambiente de forma muito semelhante a um ser humano. Essa capacidade é alimentada por estruturas como PyTorch ou TensorFlow, que facilitam o treinamento dessas redes complexas.
A DRL foi além da investigação teórica e passou a aplicar os seus resultados em aplicações práticas e de alto impacto em vários setores:
Para muitas aplicações de DRL, o «estado» é visual. Modelos de alta velocidade atuam como os olhos do agente, convertendo imagens brutas em dados estruturados sobre os quais a rede de políticas pode agir. O exemplo a seguir ilustra como o modelo YOLO26 atua como camada de percepção para um agente, extraindo observações (por exemplo, contagem de obstáculos) do ambiente.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
É útil diferenciar a Aprendizagem por Reforço Profundo de termos semelhantes para compreender a sua posição única no panorama da cenário da IA:
Os programadores que desejam gerir os conjuntos de dados necessários para as camadas de percepção dos sistemas DRL podem utilizar Ultralytics , que simplifica os fluxos de trabalho de anotação e formação na nuvem . Além disso, os investigadores costumam usar ambientes padronizados, como o Gymnasium, para comparar os seus algoritmos DRL com linhas de base estabelecidas.