Glossário

Deep Reinforcement Learning

Explore o Deep Reinforcement Learning (DRL) e como ele combina a tomada de decisões da IA com o deep learning. Aprenda a usar Ultralytics como uma camada de percepção hoje mesmo.

A aprendizagem por reforço profundo (DRL) é um subconjunto avançado da inteligência artificial (IA) que combina as capacidades de tomada de decisão da aprendizagem por reforço com o poder percetivo da aprendizagem profunda (DL). Enquanto a aprendizagem por reforço tradicional depende de métodos tabulares para mapear situações para ações, esses métodos têm dificuldades quando o ambiente é complexo ou visual. O DRL supera isso usando redes neurais para interpretar dados de entrada de alta dimensão , como quadros de vídeo ou leituras de sensores, permitindo que as máquinas aprendam estratégias eficazes diretamente da experiência bruta , sem instruções humanas explícitas.

O mecanismo central do DRL

Num sistema DRL, um agente de IA interage com um ambiente em etapas de tempo discretas. Em cada etapa, o agente observa o «estado» atual, seleciona uma ação com base numa política e recebe um sinal de recompensa indicando o sucesso ou o fracasso dessa ação. O objetivo principal é maximizar a recompensa acumulada ao longo do tempo.

O componente "profundo" refere-se ao uso de redes neurais profundas para aproximar a política (a estratégia de ação) ou a função de valor (a recompensa futura estimada). Isso permite que o agente processe dados não estruturados, utilizando visão computacional (CV) para "ver" o ambiente de forma muito semelhante a um ser humano. Essa capacidade é alimentada por estruturas como PyTorch ou TensorFlow, que facilitam o treinamento dessas redes complexas.

Aplicações no Mundo Real

A DRL foi além da investigação teórica e passou a aplicar os seus resultados em aplicações práticas e de alto impacto em vários setores:

Robótica avançada: No campo da IA em robótica, o DRL permite que as máquinas dominem habilidades motoras complexas que são difíceis de codificar. Os robôs podem aprender a agarrar objetos irregulares ou atravessar terrenos acidentados , refinando os seus movimentos em motores físicos como o NVIDIA Sim. Isso geralmente envolve o treino em dados sintéticos antes de implementar a política no hardware físico.
Condução autónoma: Os veículos autónomos utilizam o DRL para tomar decisões em tempo real em cenários de trânsito imprevisíveis. Enquanto os modelos de deteção de objetos identificam peões e sinais, os algoritmos do DRL utilizam essas informações para determinar políticas de condução seguras para a incorporação em faixas, navegação em cruzamentos e controlo de velocidade, gerindo eficazmente a latência de inferência necessária para a segurança.

Visão como observador do Estado

Para muitas aplicações de DRL, o «estado» é visual. Modelos de alta velocidade atuam como os olhos do agente, convertendo imagens brutas em dados estruturados sobre os quais a rede de políticas pode agir. O exemplo a seguir ilustra como o modelo YOLO26 atua como camada de percepção para um agente, extraindo observações (por exemplo, contagem de obstáculos) do ambiente.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Distinção entre DRL e conceitos relacionados

É útil diferenciar a Aprendizagem por Reforço Profundo de termos semelhantes para compreender a sua posição única no panorama da cenário da IA:

Aprendizagem por reforço (RL): A RL padrão é o conceito fundamental, mas normalmente depende de tabelas de consulta (como tabelas Q), que se tornam impraticáveis para grandes espaços de estado. A DRL resolve isso usando aprendizagem profunda para aproximar funções, permitindo-lhe lidar com entradas complexas, como imagens.
Aprendizagem por reforço a partir do feedback humano (RLHF): Enquanto a DRL normalmente otimiza uma função de recompensa definida matematicamente (por exemplo, pontos num jogo), a RLHF refina modelos — especificamente Modelos de Linguagem Grande (LLMs)— usando preferências humanas subjetivas para alinhar o comportamento da IA com os valores humanos, uma técnica popularizada por grupos de pesquisa como a OpenAI.
Aprendizagem não supervisionada: Os métodos não supervisionados procuram padrões ocultos nos dados sem feedback explícito. Em contrapartida, a DRL é orientada para objetivos, impulsionada por um sinal de recompensa que guia ativamente o agente em direção a um objetivo específico, conforme discutido nos textos fundamentais de Sutton e Barto.

Os programadores que desejam gerir os conjuntos de dados necessários para as camadas de percepção dos sistemas DRL podem utilizar Ultralytics , que simplifica os fluxos de trabalho de anotação e formação na nuvem . Além disso, os investigadores costumam usar ambientes padronizados, como o Gymnasium, para comparar os seus algoritmos DRL com linhas de base estabelecidas.

Deep Reinforcement Learning

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

O mecanismo central do DRL

Aplicações no Mundo Real

Visão como observador do Estado

Distinção entre DRL e conceitos relacionados

Leia mais nesta categoria

12 casos de uso de imagens aéreas com tecnologia de visão computacional

O que é a estimativa de profundidade monocular? Uma visão geral

Uma análise sobre o usoYOLO Ultralytics para deteção de ameaças por IA

Junte-se à comunidade Ultralytics