Glossario

Apprendimento per rinforzo

Scopri l'apprendimento per rinforzo, in cui gli agenti ottimizzano le azioni attraverso prove ed errori per massimizzare le ricompense. Esplora concetti, applicazioni e vantaggi!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

L'apprendimento per rinforzo (RL) è un tipo di apprendimento automatico (ML) in cui un agente intelligente impara a prendere una sequenza di decisioni cercando di massimizzare la ricompensa che riceve per le sue azioni. A differenza dell'apprendimento supervisionato, che impara da esempi etichettati, o dell'apprendimento non supervisionato, che trova modelli nei dati non etichettati, l'RL impara per tentativi ed errori interagendo con l'ambiente. L'agente riceve un feedback sotto forma di premi o penalità in base alle azioni che compie, guidando il suo processo di apprendimento verso il raggiungimento di un obiettivo specifico.

Concetti fondamentali

Diversi componenti chiave definiscono un sistema di apprendimento per rinforzo:

  • Agente: Il discente o l'entità decisionale che interagisce con l'ambiente.
  • Ambiente: Il sistema o il mondo esterno all'interno del quale l'agente opera.
  • Stato: Una rappresentazione della situazione o della configurazione attuale dell'ambiente percepita dall'agente.
  • Azione: Una decisione o una mossa effettuata dall'agente nell'ambiente.
  • Ricompensa: Un segnale numerico ricevuto dall'ambiente dopo aver eseguito un'azione, che indica quanto sia stata buona o cattiva quell'azione in un particolare stato. L'obiettivo dell'agente è in genere quello di massimizzare la ricompensa cumulativa nel tempo.
  • Politica: La strategia o la mappatura che l'agente utilizza per determinare l'azione successiva in base allo stato attuale. Si tratta essenzialmente di ciò che l'agente apprende.
  • Funzione di valore: Una previsione delle ricompense future attese ottenibili da un determinato stato o dall'esecuzione di un'azione specifica in un determinato stato, seguendo una particolare politica.
  • Processo decisionale di Markov (MDP): Un quadro matematico comunemente usato per modellare i problemi di RL, che definisce le interazioni tra l'agente e l'ambiente.

Una sfida fondamentale in RL è il compromesso esplorazione-sfruttamento: l'agente deve bilanciare l'esplorazione di nuove azioni per scoprire ricompense potenzialmente più alte (esplorazione) con la scelta di azioni note per dare buone ricompense (sfruttamento).

Come funziona l'apprendimento per rinforzo

Il processo di RL è tipicamente iterativo. L'agente osserva lo stato attuale dell'ambiente, seleziona un'azione basata sulla sua politica attuale, esegue l'azione e riceve una ricompensa (o una penalità) e lo stato successivo dall'ambiente. Questo feedback viene utilizzato per aggiornare la politica o la funzione di valore dell'agente, migliorando il suo processo decisionale nel tempo. Gli algoritmi di RL più comuni includono i metodi Q-learning, SARSA e Policy Gradient, ognuno dei quali utilizza strategie diverse per l'apprendimento e l'aggiornamento della politica. Il Deep Reinforcement Learning (DRL) combina l'RL con le tecniche di deep learning, utilizzando le reti neurali (NN) per approssimare le politiche o le funzioni di valore, consentendo all'RL di affrontare problemi con spazi di stato complessi e altamente dimensionali come le immagini o i dati dei sensori.

Confronto con altri paradigmi di apprendimento

L'RL si differenzia in modo significativo dagli altri paradigmi di ML:

  • Apprendimento supervisionato: Apprende da un set di dati contenenti esempi etichettati (coppie input-output). L'obiettivo è quello di apprendere una funzione di mappatura che preveda gli output per nuovi input. Gli esempi includono la classificazione e la regressione delle immagini. L'RL impara dall'interazione e dal feedback (ricompense), non da risposte corrette predefinite.
  • Apprendimento non supervisionato: Apprende modelli e strutture da dati non etichettati. Gli esempi includono il clustering e la riduzione della dimensionalità. L'RL è orientato all'obiettivo, all'apprendimento di una politica per massimizzare le ricompense, mentre l'apprendimento non supervisionato si concentra sulla scoperta di strutture di dati.

Applicazioni del mondo reale

L'RL ha permesso di fare progressi in diversi settori:

Rilevanza nell'ecosistema dell'intelligenza artificiale

L'apprendimento per rinforzo è una componente cruciale del più ampio panorama dell'intelligenza artificiale (AI), in particolare per la creazione di sistemi autonomi in grado di prendere decisioni complesse. Mentre aziende come Ultralytics sono specializzate in modelli di intelligenza artificiale di visione come Ultralytics YOLO per compiti come il rilevamento di oggetti e la segmentazione di istanze tramite l'apprendimento supervisionato, le capacità di percezione fornite da questi modelli sono spesso input (stati) essenziali per gli agenti RL. Ad esempio, un robot potrebbe utilizzare un modello di rilevamento degli oggetti distribuito tramite Ultralytics HUB per comprendere l'ambiente circostante prima che una politica RL decida la sua prossima mossa. La comprensione dell'RL fornisce un contesto per capire come la percezione avanzata si inserisca nella costruzione di sistemi intelligenti e autonomi, spesso sviluppati utilizzando framework come PyTorch e testati in ambienti di simulazione come Gymnasium (ex OpenAI Gym). Molte applicazioni del mondo reale prevedono l'integrazione della percezione(Computer Vision) con il processo decisionale (RL).

Leggi tutto