Glossário

Aprendizagem por reforço

Explora a Aprendizagem por Reforço: Transforma a IA com a tomada de decisões autónoma utilizando conceitos e aplicações de RL em robótica, jogos e indústria.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A aprendizagem por reforço (RL) é um subcampo da aprendizagem automática em que um agente aprende a tomar decisões executando acções num ambiente para atingir determinados objectivos. Ao contrário da aprendizagem supervisionada, em que o modelo aprende a partir de um conjunto de dados rotulados, a aprendizagem por reforço baseia-se num sistema de recompensas e penalizações para orientar o agente para um comportamento ótimo.

Como funciona a aprendizagem por reforço

Na aprendizagem por reforço, o agente interage com o ambiente em passos de tempo discretos. Em cada passo, o agente recebe feedback sob a forma de uma recompensa, que é um valor numérico. O objetivo é maximizar a recompensa acumulada ao longo do tempo. O agente escolhe acções com base numa política, que pode ser determinística ou estocástica. Ao longo do tempo, a política é melhorada à medida que o agente aprende com as consequências das suas acções.

Os principais elementos de um sistema de RL incluem:

  • Agente: O aluno ou o responsável pela tomada de decisões.
  • Ambiente: Tudo com que o agente interage.
  • Acções: Todos os movimentos possíveis que o agente pode efetuar.
  • Recompensa: Feedback do ambiente para avaliar as acções.
  • Estado: Uma representação da situação atual do ambiente.
  • Política: Uma estratégia que o agente emprega para determinar acções com base no estado atual.

Conceitos importantes de RL

  • Função de valor: Calcula a recompensa cumulativa esperada de um determinado estado ou par estado-ação.
  • Q-Learning: Um algoritmo de RL popular em que o agente aprende diretamente o valor das acções.
  • Exploração vs. Exploração: Equilibra a necessidade de explorar novas estratégias e de explorar as estratégias de sucesso conhecidas.
  • Aprendizagem por diferença temporal: Combina ideias de métodos de Monte Carlo e programação dinâmica.

Distingue a RL de termos relacionados

A aprendizagem por reforço é diferente da aprendizagem supervisionada, em que o modelo aprende a partir de pares de entradas e saídas. Em vez disso, a aprendizagem por reforço dá ênfase à aprendizagem a partir da interação com o ambiente. Também é diferente da aprendizagem não supervisionada, uma vez que não existem rótulos explícitos para o feedback da recompensa.

Aplicações da aprendizagem por reforço

Carros autónomos

A aprendizagem por reforço é crucial no desenvolvimento da IA para veículos autónomos. Os algoritmos de aprendizagem por reforço ajudam estes veículos a aprender as melhores estratégias de condução através de ambientes simulados antes dos testes físicos.

Robótica

A RL permite que os robots aprendam tarefas complexas por tentativa e erro. Por exemplo, os robôs em armazéns podem aprender a manusear vários objectos através da aprendizagem por reforço, aumentando a eficiência e a precisão.

Jogar o jogo

A RL tem sido aplicada de forma famosa nos jogos, onde os agentes aprendem a jogar e a dominar jogos como o Go e o xadrez, como demonstrado pelo AlphaGo da DeepMind.

RL nos negócios e na indústria

A aprendizagem por reforço pode otimizar operações como a gestão de stocks e a logística. Em Ultralyticsos sistemas baseados em RL ajudam a tomar decisões baseadas em dados para aumentar a eficiência e a rentabilidade das cadeias de abastecimento.

Recursos para uma exploração mais aprofundada

A aprendizagem por reforço destaca-se como um método robusto para o desenvolvimento de sistemas inteligentes capazes de tomar decisões autónomas, o que a torna uma pedra angular dos avanços da inteligência artificial e da aprendizagem automática.

Lê tudo