Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Reinforcement Learning

Esplora i concetti fondamentali dell'apprendimento per rinforzo (RL). Scopri come gli agenti utilizzano il feedback per padroneggiare le attività e osserva come Ultralytics potenzia i sistemi di visione RL.

L'apprendimento per rinforzo (RL) è un sottoinsieme orientato agli obiettivi dell' apprendimento automatico (ML) in cui un sistema autonomo, noto come agente, impara a prendere decisioni eseguendo azioni e ricevendo feedback dal proprio ambiente. A differenza dell'apprendimento supervisionato, che si basa su set di dati statici etichettati con le risposte corrette, gli algoritmi RL apprendono attraverso un processo dinamico di tentativi ed errori. L'agente interagisce con una simulazione o con il mondo reale, osservando le conseguenze delle proprie azioni per determinare quali strategie producono i maggiori benefici a lungo termine. Questo approccio riproduce fedelmente il concetto psicologico di condizionamento operante, in cui il comportamento è modellato dal rinforzo positivo (ricompense) e dal rinforzo negativo (punizioni) nel corso del tempo.

Concetti fondamentali del ciclo RL

Per comprendere come funziona l'RL, è utile visualizzarlo come un ciclo continuo di interazione. Questo quadro è spesso formalizzato matematicamente come un processo decisionale markoviano (MDP), che struttura il processo decisionale in situazioni in cui i risultati sono in parte casuali e in parte controllati dal decisore.

I componenti principali di questo ciclo di apprendimento includono:

  • Agente AI: l'entità responsabile dell' apprendimento e del processo decisionale. Percepisce l'ambiente e intraprende azioni per massimizzare il proprio successo cumulativo.
  • Ambiente: il mondo esterno in cui opera l'agente. Potrebbe trattarsi di un videogioco complesso, di una simulazione del mercato finanziario o di un magazzino fisico nell'ambito dell' intelligenza artificiale nella logistica.
  • Stato: un'istantanea o una rappresentazione della situazione attuale. Nelle applicazioni visive, ciò spesso comporta l'elaborazione dei feed della telecamera utilizzando la visione artificiale (CV) per detect e ostacoli.
  • Azione: la mossa o la scelta specifica effettuata dall'agente. L'insieme completo di tutte le mosse possibili è denominato spazio di azione.
  • Ricompensa: un segnale numerico inviato dall'ambiente all'agente dopo un'azione. Una funzione di ricompensa ben progettata assegna valori positivi alle azioni benefiche e penalità a quelle dannose.
  • Politica: la strategia o l'insieme di regole che l'agente utilizza per determinare l'azione successiva in base allo stato attuale . Algoritmi come il Q-learning definiscono come questa politica viene aggiornata e ottimizzata.

Applicazioni nel mondo reale

L'apprendimento per rinforzo è andato oltre la ricerca teorica per arrivare a implementazioni pratiche e di grande impatto in vari settori industriali.

  • Robotica avanzata: nel campo dell' intelligenza artificiale applicata alla robotica, l'apprendimento per rinforzo consente alle macchine di padroneggiare abilità motorie complesse difficili da codificare in modo rigido. I robot possono imparare ad afferrare oggetti irregolari o a muoversi su terreni accidentati grazie all'addestramento all'interno di motori fisici come NVIDIA Sim prima di essere impiegati nel mondo reale.
  • Sistemi autonomi: I veicoli autonomi utilizzano l'apprendimento rinforzato per prendere decisioni in tempo reale in scenari di traffico imprevedibili. Mentre i modelli di rilevamento degli oggetti identificano i pedoni e i segnali stradali, gli algoritmi di apprendimento rinforzato aiutano a determinare politiche di guida sicure per l'immissione in corsia e la navigazione agli incroci.
  • Ottimizzazione strategica: l'RL ha attirato l'attenzione globale quando sistemi come AlphaGoGoogle hanno sconfitto i campioni mondiali umani in complessi giochi da tavolo. Oltre ai giochi, questi agenti ottimizzano la logistica industriale, come il controllo dei sistemi di raffreddamento nei data center per ridurre il consumo energetico.

Integrazione della visione con RL

In molte applicazioni moderne, lo "stato" osservato da un agente è visivo. Modelli ad alte prestazioni come YOLO26 fungono da livello di percezione per gli agenti RL, convertendo le immagini grezze in dati strutturati. Queste informazioni elaborate, come la posizione e la classe degli oggetti, diventano lo stato che la politica RL utilizza per scegliere un'azione.

L'esempio seguente mostra come utilizzare l'opzione ultralytics pacchetto per elaborare un frame ambientale, creando una rappresentazione dello stato (ad esempio, numero di oggetti) per un ciclo RL teorico.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Differenziare i termini correlati

È importante distinguere il Reinforcement Learning dagli altri paradigmi di machine learning:

  • vs. Apprendimento supervisionato: L'apprendimento supervisionato richiede un supervisore esterno esperto che fornisca dati di addestramento etichettati (ad esempio, "questa immagine contiene un gatto"). Al contrario, l'RL apprende dalle conseguenze delle proprie azioni senza etichette esplicite , scoprendo percorsi ottimali attraverso l'esplorazione.
  • vs. Apprendimento non supervisionato: L'apprendimento non supervisionato si concentra sulla ricerca di strutture o modelli nascosti all'interno di dati non etichettati (come il raggruppamento dei clienti). L'RL è diverso perché è esplicitamente orientato agli obiettivi, concentrandosi sulla massimizzazione di un segnale di ricompensa piuttosto che sulla semplice descrizione della struttura dei dati.

Con l'aumentare della potenza di calcolo, tecniche come il Reinforcement Learning from Human Feedback (RLHF) stanno perfezionando ulteriormente il modo in cui gli agenti apprendono, allineando i loro obiettivi in modo più stretto ai complessi valori umani e agli standard di sicurezza . I ricercatori utilizzano spesso ambienti standardizzati come Gymnasium per valutare e migliorare questi algoritmi. Per i team che desiderano gestire i set di dati necessari per i livelli di percezione di questi agenti, Ultralytics offre strumenti completi per l'annotazione e la gestione dei modelli.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora