Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Deep Reinforcement Learning

Explore o Deep Reinforcement Learning (DRL) e como ele combina a tomada de decisões da IA com o deep learning. Aprenda a usar Ultralytics como uma camada de percepção hoje mesmo.

A aprendizagem por reforço profundo (DRL) é um subconjunto avançado da inteligência artificial (IA) que combina as capacidades de tomada de decisão da aprendizagem por reforço com o poder percetivo da aprendizagem profunda (DL). Enquanto a aprendizagem por reforço tradicional depende de métodos tabulares para mapear situações para ações, esses métodos têm dificuldades quando o ambiente é complexo ou visual. O DRL supera isso usando redes neurais para interpretar dados de entrada de alta dimensão , como quadros de vídeo ou leituras de sensores, permitindo que as máquinas aprendam estratégias eficazes diretamente da experiência bruta , sem instruções humanas explícitas.

O mecanismo central do DRL

Num sistema DRL, um agente de IA interage com um ambiente em etapas de tempo discretas. Em cada etapa, o agente observa o «estado» atual, seleciona uma ação com base numa política e recebe um sinal de recompensa indicando o sucesso ou o fracasso dessa ação. O objetivo principal é maximizar a recompensa acumulada ao longo do tempo.

O componente "profundo" refere-se ao uso de redes neurais profundas para aproximar a política (a estratégia de ação) ou a função de valor (a recompensa futura estimada). Isso permite que o agente processe dados não estruturados, utilizando visão computacional (CV) para "ver" o ambiente de forma muito semelhante a um ser humano. Essa capacidade é alimentada por estruturas como PyTorch ou TensorFlow, que facilitam o treinamento dessas redes complexas.

Aplicações no Mundo Real

A DRL foi além da investigação teórica e passou a aplicar os seus resultados em aplicações práticas e de alto impacto em vários setores:

  • Robótica avançada: No campo da IA em robótica, o DRL permite que as máquinas dominem habilidades motoras complexas que são difíceis de codificar. Os robôs podem aprender a agarrar objetos irregulares ou atravessar terrenos acidentados , refinando os seus movimentos em motores físicos como o NVIDIA Sim. Isso geralmente envolve o treino em dados sintéticos antes de implementar a política no hardware físico.
  • Condução autónoma: Os veículos autónomos utilizam o DRL para tomar decisões em tempo real em cenários de trânsito imprevisíveis. Enquanto os modelos de deteção de objetos identificam peões e sinais, os algoritmos do DRL utilizam essas informações para determinar políticas de condução seguras para a incorporação em faixas, navegação em cruzamentos e controlo de velocidade, gerindo eficazmente a latência de inferência necessária para a segurança.

Visão como observador do Estado

Para muitas aplicações de DRL, o «estado» é visual. Modelos de alta velocidade atuam como os olhos do agente, convertendo imagens brutas em dados estruturados sobre os quais a rede de políticas pode agir. O exemplo a seguir ilustra como o modelo YOLO26 atua como camada de percepção para um agente, extraindo observações (por exemplo, contagem de obstáculos) do ambiente.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Distinção entre DRL e conceitos relacionados

É útil diferenciar a Aprendizagem por Reforço Profundo de termos semelhantes para compreender a sua posição única no panorama da cenário da IA:

  • Aprendizagem por reforço (RL): A RL padrão é o conceito fundamental, mas normalmente depende de tabelas de consulta (como tabelas Q), que se tornam impraticáveis para grandes espaços de estado. A DRL resolve isso usando aprendizagem profunda para aproximar funções, permitindo-lhe lidar com entradas complexas, como imagens.
  • Aprendizagem por reforço a partir do feedback humano (RLHF): Enquanto a DRL normalmente otimiza uma função de recompensa definida matematicamente (por exemplo, pontos num jogo), a RLHF refina modelos — especificamente Modelos de Linguagem Grande (LLMs)— usando preferências humanas subjetivas para alinhar o comportamento da IA com os valores humanos, uma técnica popularizada por grupos de pesquisa como a OpenAI.
  • Aprendizagem não supervisionada: Os métodos não supervisionados procuram padrões ocultos nos dados sem feedback explícito. Em contrapartida, a DRL é orientada para objetivos, impulsionada por um sinal de recompensa que guia ativamente o agente em direção a um objetivo específico, conforme discutido nos textos fundamentais de Sutton e Barto.

Os programadores que desejam gerir os conjuntos de dados necessários para as camadas de percepção dos sistemas DRL podem utilizar Ultralytics , que simplifica os fluxos de trabalho de anotação e formação na nuvem . Além disso, os investigadores costumam usar ambientes padronizados, como o Gymnasium, para comparar os seus algoritmos DRL com linhas de base estabelecidas.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora