Glossario

Processo decisionale di Markov (MDP)

Scopri i processi decisionali di Markov (MDP) e il loro ruolo nell'IA, nell'apprendimento per rinforzo, nella robotica e nel processo decisionale in ambito sanitario.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Un processo decisionale di Markov (MDP) fornisce un quadro matematico per modellare il processo decisionale in scenari in cui i risultati sono in parte casuali e in parte controllabili da un decisore, spesso chiamato agente. Si tratta di un concetto fondamentale nell'ambito dell'Intelligenza Artificiale (IA), soprattutto nel campo dell'Apprendimento per Rinforzo (RL). Le MDP permettono agli agenti di apprendere comportamenti ottimali attraverso tentativi ed errori, interagendo con l'ambiente circostante nel corso del tempo.

Componenti fondamentali di una MDP

Una MDP è tipicamente definita da diversi componenti chiave:

  • Stati (S): Un insieme di possibili situazioni o configurazioni in cui l'agente può trovarsi. Ad esempio, la posizione di un robot in una stanza o il livello di inventario di un prodotto.
  • Azioni (A): Un insieme di scelte disponibili per l'agente in ogni stato. Ad esempio, le direzioni in cui un robot può muoversi o la quantità di un prodotto da ordinare.
  • Probabilità di transizione (P): la probabilità di passare da uno stato all'altro dopo aver intrapreso un'azione specifica. Riflette l'incertezza dell'ambiente. Ad esempio, il tentativo di andare avanti potrebbe avere successo il 90% delle volte, ma fallire il 10% (rimanendo fermi o colpendo un ostacolo).
  • Ricompense (R): un segnale numerico ricevuto dall'agente dopo la transizione da uno stato all'altro grazie a un'azione. Le ricompense indicano la desiderabilità immediata della transizione. L'obiettivo è in genere quello di massimizzare la ricompensa cumulativa nel tempo.
  • Politica (π): La strategia dell'agente, che stabilisce quale azione scegliere in ogni stato. L'obiettivo della risoluzione di un MDP è solitamente quello di trovare una politica ottimale che massimizzi la ricompensa attesa a lungo termine. Le tecniche di Deep Reinforcement Learning sono spesso utilizzate per trovare tali politiche in ambienti complessi.

La proprietà di Markov

Una caratteristica che definisce i MDP è la proprietà di Markov. Questo presupposto afferma che lo stato futuro e la ricompensa dipendono solo dallo stato attuale e dall'azione intrapresa, non dalla sequenza di stati e azioni che hanno portato allo stato attuale. In sostanza, lo stato attuale contiene tutte le informazioni rilevanti del passato per prendere una decisione ottimale per il futuro. Questo semplifica notevolmente il processo di modellazione. Maggiori dettagli sono disponibili nella pagina di Wikipedia dedicata alle proprietà di Markov.

Applicazioni del mondo reale

Gli MDP costituiscono la base teorica per la risoluzione di molti problemi decisionali sequenziali del mondo reale:

  • Navigazione robotica: Un robot decide come muoversi per raggiungere una destinazione evitando gli ostacoli. Gli stati sono le posizioni e gli orientamenti possibili del robot, le azioni sono i comandi di movimento (avanti, indietro), le transizioni riguardano le probabilità di successo del movimento e le ricompense possono essere positive per il raggiungimento dell'obiettivo e negative per le collisioni o il tempo impiegato. Questo si estende a sistemi complessi come i veicoli autonomi.
  • Gestione dell'inventario: Determinare politiche di ordinazione ottimali per prodotti con domanda incerta. Gli stati rappresentano i livelli di inventario, le azioni sono le quantità ordinate, le transizioni dipendono dalla domanda stocastica dei clienti e le ricompense bilanciano i ricavi delle vendite con i costi di ordinazione e di mantenimento. Questo è fondamentale per applicazioni come l'intelligenza artificiale per una gestione più intelligente dell'inventario al dettaglio. Puoi trovare lavori accademici che esplorano gli MDP in Ricerca Operativa.
  • Giochi: Agenti di intelligenza artificiale che imparano a giocare a giochi come gli scacchi o il Go, dove lo stato è la configurazione della scacchiera, le azioni sono mosse legali e le ricompense sono date per vincere la partita. Il lavoro di DeepMind su AlphaGo dimostra la potenza dell'RL in questi ambiti.

Rilevanza nell'IA e nell'apprendimento automatico

Gli MDP formalizzano la struttura del problema per la maggior parte dei compiti di apprendimento per rinforzo. A differenza dell'apprendimento supervisionato (apprendimento da dati etichettati) o dell'apprendimento non supervisionato (ricerca di modelli), l'RL si concentra sull'apprendimento attraverso l'interazione e il feedback (ricompense) per raggiungere un obiettivo a lungo termine, rendendo gli MDP la struttura naturale. Questo paradigma è fondamentale per l'addestramento di agenti che devono prendere sequenze di decisioni in ambienti dinamici, un aspetto sempre più rilevante in campi come la Computer Vision (CV) per compiti che richiedono una percezione o un'interazione attiva. L'obiettivo generale di questo ramo del Machine Learning (ML) è spesso quello di ottimizzare la precisione a lungo termine o il successo del compito attraverso il segnale di ricompensa.

Relazione con altri concetti

Pur essendo correlati a modelli di sequenza come i modelli di Markov nascosti (HMM), gli MDP si distinguono perché prevedono che un agente scelga attivamente le azioni per influenzare le transizioni e massimizzare le ricompense, mentre gli HMM modellano tipicamente sistemi in cui le transizioni di stato avvengono sulla base di probabilità senza che l'agente abbia il controllo sulle azioni. La risoluzione degli MDP spesso coinvolge tecniche come la programmazione dinamica (se il modello è completamente noto) o algoritmi RL come il Q-learning e i metodi di gradiente della politica quando il modello è sconosciuto. Questi metodi si basano spesso sull'equazione di Bellman per mettere in relazione il valore di uno stato con i valori degli stati successivi. Strumenti come OpenAI Gym (ora Gymnasium) forniscono ambienti per sviluppare e testare agenti RL, spesso implementati utilizzando framework come PyTorch. La gestione dell'addestramento e del Model Deployment di questi modelli complessi può essere facilitata da piattaforme come Ultralytics HUB, che supporta diversi flussi di lavoro di AI, compresi quelli che coinvolgono modelli all'avanguardia come Ultralytics YOLO. Per una comprensione completa, consulta risorse come il libro RL di Sutton & Barto.

Leggi tutto