Glossário

Aprendizagem profunda por reforço

Descobre o poder da aprendizagem por reforço profundo - onde a IA aprende comportamentos complexos para resolver desafios em jogos, robótica, cuidados de saúde e muito mais.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A aprendizagem por reforço profundo é um subcampo da aprendizagem automática que combina a aprendizagem por reforço com a aprendizagem profunda. A aprendizagem por reforço envolve o treino de agentes para tomarem decisões interagindo com um ambiente e recebendo feedback sob a forma de recompensas. A aprendizagem profunda utiliza redes neurais profundas para processar e aprender com grandes quantidades de dados. Ao combinar estas duas abordagens, a aprendizagem por reforço profundo permite a criação de agentes que podem aprender comportamentos complexos e resolver problemas difíceis em vários domínios.

Conceitos-chave em Deep Reinforcement Learning

A aprendizagem por reforço profundo baseia-se em vários conceitos fundamentais, tanto da aprendizagem por reforço como da aprendizagem profunda. Compreender estes conceitos é crucial para perceberes como funciona a aprendizagem por reforço profundo.

Agente

Na aprendizagem por reforço, um agente é uma entidade que interage com um ambiente e aprende a tomar decisões. O agente observa o estado do ambiente, toma medidas e recebe recompensas com base nessas medidas.

Ambiente

O ambiente é o mundo ou sistema com o qual o agente interage. Pode ser um espaço físico, um cenário simulado ou qualquer outro contexto no qual o agente opera. O ambiente fornece observações ao agente e responde às suas acções.

Estado

O estado representa a situação atual ou a configuração do ambiente. É um conjunto de variáveis que descrevem o ambiente num determinado momento. O agente utiliza o estado para tomar decisões.

Ação

Uma ação é uma decisão ou um movimento feito pelo agente no ambiente. As acções podem ser discretas (por exemplo, mover-se para a esquerda, mover-se para a direita) ou contínuas (por exemplo, acelerar uma certa quantidade).

Recompensa

Uma recompensa é o feedback fornecido pelo ambiente ao agente em resposta às suas acções. As recompensas podem ser positivas, negativas ou neutras e orientam o agente para comportamentos desejáveis. O objetivo do agente é maximizar a recompensa acumulada ao longo do tempo.

Política

Uma política é uma estratégia ou um conjunto de regras que determina as acções do agente com base no estado atual. Na aprendizagem por reforço profundo, as políticas são frequentemente representadas por redes neurais profundas.

Função de valor

Uma função de valor estima a recompensa cumulativa esperada que um agente pode obter a partir de um determinado estado ou par estado-ação. As funções de valor ajudam o agente a avaliar as consequências a longo prazo das suas acções.

Q-Learning

O Q-learning é um algoritmo popular de aprendizagem por reforço que aprende uma função Q, que estima o valor de tomar uma determinada ação num determinado estado. O Q-learning profundo utiliza redes neurais profundas para aproximar a função Q.

Gradientes de política

Os métodos de gradiente de política optimizam diretamente a política para maximizar a recompensa cumulativa esperada. Estes métodos actualizam os parâmetros da política no sentido do aumento das recompensas.

Aprendizagem por reforço profundo vs. outras técnicas de aprendizagem automática

A aprendizagem por reforço profundo difere de outras técnicas de aprendizagem automática em vários aspectos fundamentais. Ao contrário da aprendizagem supervisionada, que se baseia em dados rotulados, a aprendizagem por reforço profundo aprende a partir de recompensas e interações com um ambiente. Isto torna-a adequada para problemas em que os dados rotulados são escassos ou não estão disponíveis. Em contraste com a aprendizagem não supervisionada, que visa encontrar padrões em dados não rotulados, a aprendizagem por reforço profundo centra-se na aprendizagem de acções óptimas para maximizar as recompensas.

Em comparação com a aprendizagem por reforço tradicional, a aprendizagem por reforço profundo tira partido do poder das redes neuronais profundas para lidar com espaços de estado e de ação de elevada dimensão. Isto permite-lhe lidar com problemas mais complexos que anteriormente eram intratáveis para os métodos tradicionais.

Aplicações da aprendizagem profunda por reforço

A aprendizagem por reforço profundo tem demonstrado um sucesso notável em várias aplicações, demonstrando a sua versatilidade e potencial.

Jogar o jogo

Uma das aplicações mais proeminentes da aprendizagem por reforço profundo é o jogo. O AlphaGo da DeepMind, por exemplo, utilizou a aprendizagem por reforço profundo para derrotar o campeão mundial no jogo Go, um feito anteriormente considerado inatingível para os sistemas de IA. Da mesma forma, o AlphaZero dominou o xadrez e o shogi utilizando técnicas semelhantes. A IA do Dota 2 da OpenAI, OpenAI Five, também demonstrou o poder da aprendizagem por reforço profundo ao derrotar equipas profissionais no complexo jogo multijogador Dota 2. Podes saber mais sobre o papel da IA nos jogos em AI in Video Games: Moldar o futuro dos jogos.

Robótica

A aprendizagem por reforço profundo tem-se revelado promissora na robótica para tarefas como a locomoção, a manipulação e a navegação de robôs. Ao treinar robôs em ambientes simulados, os investigadores podem desenvolver políticas de controlo que permitam aos robôs executar tarefas complexas no mundo real. Por exemplo, a aprendizagem por reforço profundo tem sido utilizada para treinar robôs a andar, agarrar objectos e até jogar futebol. Vê o livro From Algorithms to Automation: O papel da IA na robótica para mais informações.

Veículos autónomos

Os veículos autónomos podem beneficiar da aprendizagem por reforço profundo para tarefas de tomada de decisões, como a manutenção da faixa de rodagem, a ultrapassagem e a navegação em cruzamentos. Ao aprender com as interações com cenários de condução simulados ou reais, os sistemas de condução autónoma podem desenvolver políticas de controlo robustas e adaptáveis. Explora mais sobre a IA nos automóveis autónomos em IA nos automóveis autónomos.

Gestão de recursos

A aprendizagem profunda por reforço pode ser aplicada a problemas de gestão de recursos, como a otimização energética, o controlo do tráfego e a gestão da cadeia de abastecimento. Ao modelar estes sistemas como ambientes de aprendizagem por reforço, os agentes podem aprender a tomar decisões eficientes que optimizem a atribuição de recursos e minimizem os custos.

Cuidados de saúde

Nos cuidados de saúde, a aprendizagem por reforço profundo pode ser utilizada para o planeamento de tratamentos personalizados, a descoberta de medicamentos e o diagnóstico médico. Por exemplo, pode ajudar a determinar as estratégias de tratamento ideais para os pacientes com base no seu historial médico e estado atual. Sabe mais sobre o papel da IA nos cuidados de saúde em O papel da IA nos cuidados de saúde.

Desafios e direcções futuras

Embora a aprendizagem por reforço profundo tenha alcançado resultados impressionantes, continua a enfrentar vários desafios. Estes incluem a ineficiência da amostragem, a instabilidade durante o treino e a dificuldade de definir funções de recompensa adequadas. Os investigadores estão a trabalhar ativamente na resolução destes desafios e na exploração de novas fronteiras na aprendizagem por reforço profundo, como a aprendizagem por reforço multi-agente, a aprendizagem por reforço hierárquico e a aprendizagem por meta-reforço.

À medida que a aprendizagem por reforço profundo continua a avançar, espera-se que desempenhe um papel cada vez mais importante em várias aplicações do mundo real, impulsionando a inovação e transformando as indústrias. Para mais informações sobre o impacto mais alargado da IA, visita Ultralytics.

Lê tudo