Sözlük

Markov Karar Süreci (MDP)

Markov Karar Süreçlerini (MDP'ler) ve bunların yapay zeka, takviyeli öğrenme, robotik ve sağlık hizmetlerinde karar verme süreçlerindeki rollerini keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Markov Karar Süreci (MDP), sonuçların kısmen rastgele olduğu ve genellikle ajan olarak adlandırılan bir karar verici tarafından kısmen kontrol edilebildiği senaryolarda karar vermeyi modellemek için matematiksel bir çerçeve sağlar. Yapay Zeka (AI) içinde, özellikle Takviyeli Öğrenme (RL) alanı için temel olan bir köşe taşı kavramıdır. MDP'ler, aracıların zaman içinde çevreleriyle etkileşime girerek deneme yanılma yoluyla optimum davranışları öğrenmelerine olanak tanır.

MDP'nin Temel Bileşenleri

Bir MDP tipik olarak birkaç temel bileşen tarafından tanımlanır:

  • Durumlar (S): Temsilcinin içinde bulunabileceği bir dizi olası durum veya konfigürasyon. Örneğin, bir robotun bir odadaki konumu veya bir ürünün envanter seviyesi.
  • Eylemler (A): Her durumda aracı için mevcut olan bir dizi seçenek. Örneğin, bir robotun hareket edebileceği yönler veya sipariş edilecek bir ürünün miktarı.
  • Geçiş Olasılıkları (P): Belirli bir eylemi gerçekleştirdikten sonra bir durumdan diğerine geçme olasılığı. Bu, ortamdaki belirsizliği yansıtır. Örneğin, ilerlemeye çalışmak zamanın %90'ında başarılı olabilir ancak %10'unda başarısız olabilir (yerinde kalmak veya bir engele çarpmak).
  • Ödüller (R): Bir eylem nedeniyle bir durumdan diğerine geçtikten sonra ajan tarafından alınan sayısal bir sinyal. Ödüller geçişin anlık arzu edilebilirliğini gösterir. Amaç tipik olarak zaman içinde kümülatif ödülü maksimize etmektir.
  • Politika (π): Temsilcinin her durumda hangi eylemi seçeceğini belirleyen stratejisidir. Bir MDP'yi çözmenin amacı genellikle beklenen uzun vadeli ödülü maksimize eden optimal bir politika bulmaktır. Derin Takviyeli Öğrenme teknikleri genellikle karmaşık ortamlarda bu tür politikaları bulmak için kullanılır.

Markov Özelliği

MDP'lerin tanımlayıcı bir özelliği Markov Özelliğidir. Bu varsayım, gelecekteki durumun ve ödülün, mevcut duruma yol açan durum ve eylemler dizisine değil, yalnızca mevcut duruma ve gerçekleştirilen eyleme bağlı olduğunu belirtir. Özünde, mevcut durum, gelecek için en uygun kararı vermek için geçmişten gelen tüm ilgili bilgileri içerir. Bu, modelleme sürecini önemli ölçüde basitleştirir. Daha fazla ayrıntı Wikipedia'nın Markov Özelliği sayfasında bulunabilir.

Gerçek Dünya Uygulamaları

MDP'ler, birçok gerçek dünya sıralı karar probleminin çözümü için teorik temel sağlar:

  • Robotik Navigasyon: Engellerden kaçınırken bir hedefe ulaşmak için nasıl hareket edeceğine karar veren bir robot. Durumlar robotun olası konumları ve yönleridir, eylemler hareket komutlarıdır (ileri, dönüş), geçişler başarılı hareket olasılıklarını içerir ve ödüller hedefe ulaşmak için pozitif, çarpışmalar veya harcanan zaman için negatif olabilir. Bu, Otonom Araçlar gibi karmaşık sistemlere kadar uzanır.
  • Envanter Yönetimi: Belirsiz talebe sahip ürünler için optimum sipariş politikalarının belirlenmesi. Durumlar envanter seviyelerini temsil eder, eylemler sipariş miktarlarıdır, geçişler stokastik müşteri talebine bağlıdır ve ödüller satış gelirini sipariş ve elde tutma maliyetlerine karşı dengeler. Bu, daha akıllı perakende envanter yönetimi için yapay zeka gibi uygulamalar için çok önemlidir. MDP'leri inceleyen akademik çalışmaları Yöneylem Araştırması bölümünde bulabilirsiniz.
  • Oyun Oynama: Satranç veya Go gibi oyunları oynamayı öğrenen yapay zeka ajanları, burada durum tahta konfigürasyonu, eylemler yasal hamlelerdir ve oyunu kazanmak için ödüller verilir. DeepMind'ın AlphaGo üzerindeki çalışmaları, RL'nin bu tür alanlardaki gücünü göstermektedir.

Yapay Zeka ve Makine Öğreniminde Uygunluk

MDP'ler çoğu Takviyeli Öğrenme görevi için problem yapısını resmileştirir. Denetimli Öğrenme (etiketli verilerden öğrenme) veya Denetimsiz Öğrenmenin (örüntü bulma) aksine, RL uzun vadeli bir hedefe ulaşmak için etkileşim ve geri bildirim (ödüller) yoluyla öğrenmeye odaklanır ve MDP'leri doğal çerçeve haline getirir. Bu paradigma, aktif algılama veya etkileşim gerektiren görevler için Bilgisayarla Görme (CV) gibi alanlarda giderek daha fazla önem kazanan dinamik ortamlarda karar dizileri vermesi gereken ajanların eğitimi için hayati önem taşımaktadır. Bu Makine Öğrenimi (ML) dalındaki genel amaç, genellikle ödül sinyali aracılığıyla uzun vadeli Doğruluk veya görev başarısı için optimizasyon yapmaktır.

Diğer Kavramlarla İlişkisi

Gizli Markov Modelleri (HMM'ler) gibi dizi modelleriyle ilişkili olsa da, MDP'ler farklıdır çünkü geçişleri etkilemek ve ödülleri en üst düzeye çıkarmak için aktif olarak eylem seçen bir ajan içerirken, HMM'ler tipik olarak durum geçişlerinin bir ajanın eylemler üzerinde kontrolü olmadan olasılıklara dayalı olarak gerçekleştiği sistemleri modeller. MDP'lerin çözümü genellikle Dinamik Programlama (model tam olarak biliniyorsa) gibi teknikleri veya model bilinmediğinde Q-öğrenme ve politika gradyan yöntemleri gibi RL algoritmalarını içerir. Bu yöntemler genellikle bir durumun değerini sonraki durumların değerleriyle ilişkilendirmek için Bellman Denklemine dayanır. OpenAI Gym (şimdi Gymnasium) gibi araçlar, genellikle aşağıdaki gibi çerçeveler kullanılarak uygulanan RL aracılarını geliştirmek ve test etmek için ortamlar sağlar PyTorch. Bu tür karmaşık modellerin eğitimini ve Model Dağıtımını yönetmek, aşağıdakiler gibi son teknoloji modelleri içerenler de dahil olmak üzere çeşitli yapay zeka iş akışlarını destekleyen Ultralytics HUB gibi platformlar tarafından kolaylaştırılabilir Ultralytics YOLO. Kapsamlı bir anlayış için Sutton & Barto'nun RL kitabı gibi kaynaklara başvurun.

Tümünü okuyun