Glossario

Apprendimento per rinforzo

Scopri l'apprendimento per rinforzo, in cui gli agenti ottimizzano le azioni attraverso prove ed errori per massimizzare le ricompense. Esplora concetti, applicazioni e vantaggi!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

L'apprendimento per rinforzo (RL) è un'area distinta del Machine Learning (ML) in cui un agente impara a prendere decisioni eseguendo azioni in un ambiente per raggiungere un obiettivo specifico. A differenza di altri paradigmi di ML, agli agenti RL non viene detto esplicitamente quali azioni intraprendere. Al contrario, imparano per tentativi ed errori, ricevendo un feedback sotto forma di premi o penalità in base alle loro azioni. L'obiettivo fondamentale dell'agente è imparare una strategia, nota come politica, che massimizzi la sua ricompensa cumulativa nel tempo.

Concetti fondamentali dell'apprendimento per rinforzo

La comprensione della RL implica diversi componenti chiave:

  • Agente: L'allievo o il decisore che interagisce con l'ambiente.
  • Ambiente: Il mondo esterno o il sistema con cui l'agente interagisce. Fornisce un feedback all'agente.
  • Stato: Una rappresentazione della situazione o della configurazione attuale dell'ambiente. Nelle applicazioni di Computer Vision (CV), lo stato può essere derivato dai dati dell'immagine.
  • Azione: Una mossa o una decisione presa dall'agente che influenza lo stato dell'ambiente.
  • Ricompensa: Un segnale numerico di feedback dall'ambiente che indica quanto sia stata buona o cattiva l'ultima azione dell'agente rispetto all'obiettivo.
  • Politica: La strategia o la mappatura che l'agente utilizza per determinare l'azione successiva in base allo stato attuale. L'obiettivo di RL è trovare la politica ottimale.

Come funziona l'apprendimento per rinforzo

Il processo di RL è iterativo. L'agente osserva lo stato attuale dell'ambiente, seleziona un'azione basata sulla sua politica attuale ed esegue l'azione. L'ambiente passa a un nuovo stato e fornisce un segnale di ricompensa all'agente. L'agente utilizza questo segnale di ricompensa per aggiornare la sua politica, con l'obiettivo di ricevere più ricompense in futuro. Un aspetto critico di questo processo è l'equilibrio tra l'esplorazione (provare nuove azioni per scoprire ricompense potenzialmente migliori) e lo sfruttamento (utilizzare azioni note che producono ricompense elevate). Questo ciclo di apprendimento viene spesso formalizzato utilizzando i processi decisionali di Markov (MDP).

Confronto con altri tipi di apprendimento automatico

L'RL si differenzia in modo significativo dagli altri paradigmi di ML primari:

  • Apprendimento supervisionato: Apprende da insiemi di dati etichettati in cui viene fornito l'output corretto per ogni input. RL apprende da segnali di ricompensa senza etichette esplicite di azioni corrette.
  • Apprendimento non supervisionato: Trova schemi e strutture in dati non etichettati. L'RL si concentra sull'apprendimento mirato attraverso l'interazione e il feedback.

Sebbene le tecniche di Deep Learning (DL), come l'utilizzo di reti neurali (NN), siano spesso impiegate all'interno dell'RL (noto come Deep Reinforcement Learning) per gestire spazi di stato complessi (come le immagini) e approssimare politiche o funzioni di valore, il meccanismo di apprendimento fondamentale basato sulle ricompense rimane distinto.

Applicazioni del mondo reale

L'RL ha dimostrato un notevole successo in vari ambiti complessi:

  1. Giocare: Gli agenti RL hanno raggiunto prestazioni sovrumane in giochi complessi come il Go(AlphaGo di DeepMind) e vari videogiochi(OpenAI Five in Dota 2). Questi agenti imparano strategie complesse attraverso il gioco autonomo, superando di gran lunga le capacità umane. Questa capacità viene esplorata in AI in Video Games.
  2. Robotica: La RL viene utilizzata per addestrare i robot a svolgere compiti come la locomozione, la manipolazione di oggetti e l'assemblaggio. I robot possono imparare abilità motorie complesse in ambienti simulati o direttamente attraverso l'interazione con il mondo reale, adattandosi a circostanze impreviste. Puoi saperne di più sull'integrazione della robotica.
  3. Veicoli autonomi: Gli algoritmi di RL possono essere utilizzati per ottimizzare le politiche di guida, come il processo decisionale per il cambio di corsia, l'accorpamento o la navigazione negli incroci, contribuendo ai progressi discussi in AI in Self-Driving Cars.
  4. Sistemi di raccomandazione: La RL può personalizzare le raccomandazioni imparando le preferenze dell'utente in base alle interazioni e ai feedback ricevuti nel corso del tempo, adattandosi dinamicamente ai cambiamenti dei gusti. Scopri di più sui sistemi di raccomandazione.

Apprendimento per rinforzo e visione artificiale

In molte applicazioni RL del mondo reale, in particolare nella robotica e nei sistemi autonomi, la Computer Vision (CV) svolge un ruolo cruciale. Modelli come Ultralytics YOLO sono in grado di elaborare gli input visivi (ad esempio, i feed delle telecamere) per estrarre informazioni rilevanti sull'ambiente, formando la rappresentazione dello "stato" utilizzata dall'agente RL. Questo permette agli agenti di percepire l'ambiente circostante e di prendere decisioni informate sulla base dei dati visivi. Strumenti come OpenAI Gym e simulatori specializzati sono spesso utilizzati per addestrare questi agenti RL basati sulla visione. Sebbene i modelli Ultralytics si concentrino principalmente su compiti di percezione attraverso l'apprendimento supervisionato, i loro risultati possono servire come input vitali per i sistemi RL che controllano agenti fisici o navigano in ambienti visivi complessi. L'addestramento e l'implementazione di questi sistemi complessi possono essere gestiti con piattaforme come Ultralytics HUB.

Per una comprensione fondamentale dei concetti di RL, si consigliano risorse come i capitoli introduttivi del libro di Sutton e Barto sull'apprendimento per rinforzo.

Leggi tutto