Glossário

Aprendizagem por reforço

Descobre a aprendizagem por reforço, em que os agentes optimizam as acções através de tentativa e erro para maximizar as recompensas. Explora conceitos, aplicações e vantagens!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A aprendizagem por reforço é um subcampo da aprendizagem automática em que um agente aprende a tomar decisões através da interação com um ambiente. Ao contrário da aprendizagem supervisionada, que se baseia em dados rotulados, a aprendizagem por reforço envolve a aprendizagem por tentativa e erro para maximizar um sinal de recompensa. Esta abordagem é inspirada na psicologia comportamental, em que o reforço positivo incentiva os comportamentos desejados. A ideia central é que um agente realiza acções num ambiente e, em resposta, recebe feedback sob a forma de recompensas ou penalizações. Com o tempo, o agente aprende a otimizar as suas acções para acumular a maior recompensa possível.

Conceitos fundamentais da aprendizagem por reforço

No centro da aprendizagem por reforço estão alguns componentes-chave. O agente é o aprendiz e o tomador de decisões. O ambiente é o mundo com o qual o agente interage. O agente executa acções dentro deste ambiente e cada ação resulta num novo estado do ambiente e numa recompensa. O objetivo do agente é aprender uma política, que é uma estratégia que determina a melhor ação a tomar em qualquer estado para maximizar a recompensa acumulada ao longo do tempo. Este processo de aprendizagem envolve frequentemente a exploração do ambiente para descobrir novas estratégias e a exploração de estratégias conhecidas para obter recompensas.

A aprendizagem por reforço é particularmente útil em cenários em que não existem dados rotulados imediatamente disponíveis, mas existe um objetivo claro que pode ser definido através de um sistema de recompensa. É diferente da aprendizagem supervisionada, em que o objetivo é mapear as entradas para as saídas com base em exemplos rotulados, e da aprendizagem não supervisionada, em que o objetivo é encontrar padrões em dados não rotulados. Em vez disso, a aprendizagem por reforço centra-se na aprendizagem de um comportamento ótimo num ambiente para atingir um objetivo.

Aplicações da aprendizagem por reforço

A aprendizagem por reforço tem uma vasta gama de aplicações em vários sectores. Uma área proeminente é a robótica. Por exemplo, a aprendizagem por reforço pode ser utilizada para treinar robôs para executar tarefas complexas, como a manipulação de objectos, a navegação em ambientes desconhecidos e até operações complexas em linhas de montagem. Ao definir uma função de recompensa que incentiva o robô a atingir os seus objectivos e penaliza as acções indesejáveis, os robôs podem aprender comportamentos sofisticados sem programação explícita. Ultralytics modelosde deteção de objectos como Ultralytics YOLOv8 podem ser integrados em sistemas robóticos para melhorar as suas capacidades de perceção, permitindo uma interação mais eficaz com ambientes dinâmicos.

Outra aplicação importante é o jogo. O AlphaGo da DeepMind, que derrotou um campeão mundial de Go, é um exemplo famoso de aprendizagem por reforço em ação. Os ambientes de jogo fornecem regras bem definidas e estruturas de recompensa claras, tornando-os ideais para desenvolver e testar algoritmos de aprendizagem por reforço. Estes algoritmos podem aprender a dominar jogos complexos, ultrapassando frequentemente o desempenho a nível humano.

Para além da robótica e dos jogos, a aprendizagem por reforço também está a ser aplicada em áreas como a gestão de recursos, como a otimização do consumo de energia em centros de dados, e em sistemas de recomendação personalizados. À medida que a IA continua a evoluir, a aprendizagem por reforço está preparada para desempenhar um papel cada vez mais importante na criação de sistemas inteligentes que podem aprender e adaptar-se em ambientes complexos e dinâmicos. Para explorares melhor as aplicações da IA e da aprendizagem automática, considera a possibilidade de participares em eventosUltralytics como o YOLO Vision, que apresenta os últimos avanços neste campo. Para aprofundar os tópicos relacionados, também podes considerar o glossárioUltralytics um recurso valioso.

Lê tudo