Glossario

Apprendimento per rinforzo

Scopri l'apprendimento per rinforzo, in cui gli agenti ottimizzano le azioni attraverso prove ed errori per massimizzare le ricompense. Esplora concetti, applicazioni e vantaggi!

L'apprendimento per rinforzo (RL) è un tipo di apprendimento automatico (ML) in cui un agente intelligente impara a prendere una sequenza di decisioni cercando di massimizzare la ricompensa che riceve per le sue azioni. A differenza dell'apprendimento supervisionato, che impara da esempi etichettati, o dell'apprendimento non supervisionato, che trova modelli nei dati non etichettati, l'RL impara per tentativi ed errori interagendo con l'ambiente. L'agente riceve un feedback sotto forma di premi o penalità in base alle azioni che compie, guidando il suo processo di apprendimento verso il raggiungimento di un obiettivo specifico.

Concetti fondamentali

Diversi componenti chiave definiscono un sistema di apprendimento per rinforzo:

Agente: Il discente o l'entità decisionale che interagisce con l'ambiente.
Ambiente: Il sistema o il mondo esterno all'interno del quale l'agente opera.
Stato: Una rappresentazione della situazione o della configurazione attuale dell'ambiente percepita dall'agente.
Azione: Una decisione o una mossa effettuata dall'agente nell'ambiente.
Ricompensa: Un segnale numerico ricevuto dall'ambiente dopo aver eseguito un'azione, che indica quanto sia stata buona o cattiva quell'azione in un particolare stato. L'obiettivo dell'agente è in genere quello di massimizzare la ricompensa cumulativa nel tempo.
Politica: La strategia o la mappatura che l'agente utilizza per determinare l'azione successiva in base allo stato attuale. Si tratta essenzialmente di ciò che l'agente apprende.
Funzione di valore: Una previsione delle ricompense future attese ottenibili da un determinato stato o dall'esecuzione di un'azione specifica in un determinato stato, seguendo una particolare politica.
Processo decisionale di Markov (MDP): Un quadro matematico comunemente usato per modellare i problemi di RL, che definisce le interazioni tra l'agente e l'ambiente.

Una sfida fondamentale in RL è il compromesso esplorazione-sfruttamento: l'agente deve bilanciare l'esplorazione di nuove azioni per scoprire ricompense potenzialmente più alte (esplorazione) con la scelta di azioni note per dare buone ricompense (sfruttamento).

Come funziona l'apprendimento per rinforzo

Il processo di RL è tipicamente iterativo. L'agente osserva lo stato attuale dell'ambiente, seleziona un'azione basata sulla sua politica attuale, esegue l'azione e riceve una ricompensa (o una penalità) e lo stato successivo dall'ambiente. Questo feedback viene utilizzato per aggiornare la politica o la funzione di valore dell'agente, migliorando il suo processo decisionale nel tempo. Gli algoritmi di RL più comuni includono i metodi Q-learning, SARSA e Policy Gradient, ognuno dei quali utilizza strategie diverse per l'apprendimento e l'aggiornamento della politica. Il Deep Reinforcement Learning (DRL) combina l'RL con le tecniche di deep learning, utilizzando le reti neurali (NN) per approssimare le politiche o le funzioni di valore, consentendo all'RL di affrontare problemi con spazi di stato complessi e altamente dimensionali come le immagini o i dati dei sensori.

Confronto con altri paradigmi di apprendimento

L'RL si differenzia in modo significativo dagli altri paradigmi di ML:

Apprendimento supervisionato: Apprende da un set di dati contenenti esempi etichettati (coppie input-output). L'obiettivo è quello di apprendere una funzione di mappatura che preveda gli output per nuovi input. Gli esempi includono la classificazione e la regressione delle immagini. L'RL impara dall'interazione e dal feedback (ricompense), non da risposte corrette predefinite.
Apprendimento non supervisionato: Apprende modelli e strutture da dati non etichettati. Gli esempi includono il clustering e la riduzione della dimensionalità. L'RL è orientato all'obiettivo, all'apprendimento di una politica per massimizzare le ricompense, mentre l'apprendimento non supervisionato si concentra sulla scoperta di strutture di dati.

Applicazioni del mondo reale

L'RL ha permesso di fare progressi in diversi settori:

Robotica: Addestrare i robot a svolgere compiti complessi come la manipolazione di oggetti, la locomozione e la navigazione in ambienti sconosciuti. Aziende come Boston Dynamics mostrano capacità robotiche avanzate spesso sviluppate utilizzando i principi della RL. Vedi il lavoro di Ultralytics sull'integrazione della computer vision nella robotica.
Giocare: Creare agenti che raggiungano prestazioni sovrumane in giochi complessi, come il Go(AlphaGo di DeepMind) e videogiochi complessi(OpenAI Five).
Veicoli autonomi: Sviluppare sistemi decisionali per le auto a guida autonoma, come la pianificazione del percorso e le strategie di controllo. Esplora le soluzioni di AI nel settore automobilistico.
Sistemi di raccomandazione: Ottimizzare le raccomandazioni (ad esempio, film, prodotti) in base alle interazioni degli utenti per massimizzare il coinvolgimento a lungo termine.
Gestione delle risorse: Ottimizzare l'allocazione delle risorse in settori come la gestione delle reti energetiche, il controllo dei semafori(AI in Traffic Management) e la logistica della catena di approvvigionamento.

Rilevanza nell'ecosistema dell'intelligenza artificiale

L'apprendimento per rinforzo è una componente cruciale del più ampio panorama dell'intelligenza artificiale (AI), in particolare per la creazione di sistemi autonomi in grado di prendere decisioni complesse. Mentre aziende come Ultralytics sono specializzate in modelli di intelligenza artificiale di visione come Ultralytics YOLO per compiti come il rilevamento di oggetti e la segmentazione di istanze tramite l'apprendimento supervisionato, le capacità di percezione fornite da questi modelli sono spesso input (stati) essenziali per gli agenti RL. Ad esempio, un robot potrebbe utilizzare un modello di rilevamento degli oggetti distribuito tramite Ultralytics HUB per comprendere l'ambiente circostante prima che una politica RL decida la sua prossima mossa. La comprensione dell'RL fornisce un contesto per capire come la percezione avanzata si inserisca nella costruzione di sistemi intelligenti e autonomi, spesso sviluppati utilizzando framework come PyTorch e testati in ambienti di simulazione come Gymnasium (ex OpenAI Gym). Molte applicazioni del mondo reale prevedono l'integrazione della percezione(Computer Vision) con il processo decisionale (RL).

Apprendimento per rinforzo

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Concetti fondamentali

Come funziona l'apprendimento per rinforzo

Confronto con altri paradigmi di apprendimento

Applicazioni del mondo reale

Rilevanza nell'ecosistema dell'intelligenza artificiale

Leggi altri blog

Unisciti alla comunità di Ultralytics

Apprendimento per rinforzo

Addestra i modelli YOLO semplicementecon Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Concetti fondamentali

Come funziona l'apprendimento per rinforzo

Confronto con altri paradigmi di apprendimento

Applicazioni del mondo reale

Rilevanza nell'ecosistema dell'intelligenza artificiale

Leggi altri blog

Unisciti alla comunità di Ultralytics

Addestra i modelli YOLO semplicemente
con Ultralytics HUB