Sözlük

Markov Karar Süreci (MDP)

Markov Karar Süreçlerini (MDP'ler) ve bunların yapay zeka, takviyeli öğrenme, robotik ve sağlık hizmetlerinde karar verme süreçlerindeki rollerini keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Markov Karar Süreci (MDP), sonuçların kısmen rastgele ve kısmen de genellikle ajan olarak adlandırılan bir karar vericinin kontrolü altında olduğu durumlarda karar vermeyi modellemek için kullanılan matematiksel bir çerçevedir. Yapay Zeka'da (AI), özellikle de Takviyeli Öğrenme (RL) alanında köşe taşı niteliğinde bir kavramdır. MDP'ler, bir ajanın zaman içinde bir çevre ile etkileşime girdiği, belirli bir hedefe ulaşmak için karar dizileri vermeyi öğrendiği, tipik olarak kümülatif bir ödülü en üst düzeye çıkardığı sorunları tanımlamak için resmi bir yol sağlar. Bu çerçeve, aracıların karmaşık ve belirsiz ortamlarda en uygun davranışları nasıl öğrenebileceğini anlamak için gereklidir.

MDP'nin Temel Bileşenleri

Bir MDP tipik olarak birkaç temel bileşen tarafından tanımlanır:

  • Durumlar (S): Temsilcinin içinde bulunabileceği bir dizi olası durum veya konfigürasyon. Örneğin, bir robot navigasyon görevinde, bir durum robotun bir ızgaradaki konumunu temsil edebilir.
  • Eylemler (A): Her bir durumda temsilcinin kullanabileceği bir dizi seçenek. Mevcut belirli eylemler mevcut duruma bağlı olabilir. Robot için eylemler 'kuzeye hareket et', 'güneye hareket et', 'doğuya hareket et', 'batıya hareket et' olabilir.
  • Geçiş Olasılıkları (P): Belirli bir eylemi (a) gerçekleştirdikten sonra bir durumdan (s) başka bir duruma (s') geçme olasılığını tanımlar. Bu, ortamdaki belirsizliği yakalar; bir eylem her zaman amaçlanan sonuca yol açmayabilir. Örneğin, kuzeye doğru hareket etmeye çalışan bir robotun kayma ve aynı yerde kalma ya da rotasından biraz sapma ihtimali çok düşük olabilir.
  • Ödüller (R): Eylem (a) nedeniyle (s) durumundan (s') durumuna geçtikten sonra ajan tarafından alınan sayısal bir değerdir. Ödüller belirli bir geçişin ya da durumun ne kadar iyi ya da kötü olduğunu gösterir. Amaç genellikle zaman içinde biriken toplam ödülü maksimize etmektir. Bir hedef konuma ulaşmak büyük bir pozitif ödül verirken, bir engele çarpmak negatif bir ödül verebilir.
  • İskonto Faktörü (γ): Anlık ödüllere kıyasla gelecekteki ödüllerin önemini belirleyen 0 ile 1 arasında bir değerdir. Daha düşük bir iskonto faktörü kısa vadeli kazançlara öncelik verirken, daha yüksek bir değer uzun vadeli başarıyı vurgular.

MDP'lerin önemli bir yönü de Markov ÖzelliğiBu da gelecekteki durum ve ödülün, mevcut duruma yol açan durum ve eylemler dizisine değil, yalnızca mevcut durum ve eyleme bağlı olduğunu ifade eder.

Yapay Zeka ve Makine Öğreniminde MDP'ler Nasıl Çalışır?

Makine Öğrenimi (ML) bağlamında, MDP'ler çoğu Takviyeli Öğrenme algoritmasının temelini oluşturur. Bir MDP'deki amaç, ajana beklenen kümülatif indirgenmiş ödülünü en üst düzeye çıkarmak için her durumda hangi eylemi gerçekleştireceğini söyleyen bir strateji veya kural olan optimal bir politika (π) bulmaktır.

Q-öğrenme, SARSA ve politika gradyan yöntemleri gibi algoritmalar, MDP'leri, genellikle geçiş olasılıkları veya ödül fonksiyonları hakkında açık bilgi gerektirmeden, bunun yerine çevre ile etkileşim yoluyla öğrenerek çözmek için tasarlanmıştır. Bu etkileşim döngüsü, ajanın mevcut durumu gözlemlemesini, politikasına dayalı bir eylem seçmesini, bir ödül almasını ve çevrenin dinamiklerine göre yeni bir duruma geçmesini içerir. Bu süreç tekrarlanarak ajanın politikasını kademeli olarak iyileştirmesine olanak tanır. Bu öğrenme paradigması, Denetimli Öğrenme (etiketli verilerden öğrenme) ve Denetimsiz Öğrenme 'den (etiketsiz verilerdeki örüntüleri bulma) önemli ölçüde farklıdır.

Gerçek Dünya Uygulamaları

MDP'ler ve bunları çözmek için kullanılan RL tekniklerinin çok sayıda pratik uygulaması vardır:

  • Robotik: Bilinmeyen arazilerde navigasyon, nesne manipülasyonu veya montaj hattı işlemleri gibi karmaşık görevleri yerine getirmek için robotları eğitmek. Robot, fiziksel belirsizliklerle uğraşırken hedefine ulaşmak için en iyi eylem dizisini öğrenir. Bilgisayarla görmenin robotik ile nasıl bütünleştiğini görün.
  • Otonom Sistemler: Ne zaman şerit değiştirileceğine veya kavşaklarda güvenli ve verimli bir şekilde nasıl gezinileceğine karar vermek gibi otonom araçların davranışlarını optimize etmek(sürücüsüz araçlardayapay zeka).
  • Finans: Bir aracının piyasa durumlarına göre optimum alım/satım politikalarını öğrendiği algoritmik ticaret stratejileri geliştirmek veya yatırım portföylerini optimize etmek(AI in Finance blogu).
  • Kaynak Yönetimi: Envanter kontrolü, akıllı şebekelerde enerji dağıtımı(enerji blogunda yapay zeka) veya kablosuz ağlarda dinamik kanal tahsisi gibi alanlarda kararların optimize edilmesi.
  • Oyun Oynama: DeepMind'ın AlphaGo'su gibi karmaşık masa oyunlarını (Go veya Satranç gibi) veya video oyunlarını insanüstü seviyelerde oynamak için YZ ajanlarını eğitmek.

Diğer Kavramlarla İlişkisi

MDP'leri ilgili kavramlardan ayırmak faydalı olacaktır:

  • Takviyeli Öğrenme (RL): RL, ajanların deneme yanılma yoluyla optimum davranışları nasıl öğrendikleri ile ilgilenen bir makine öğrenimi alanıdır. MDP'ler, RL algoritmalarının çözmeyi amaçladığı problemi tanımlayan resmi matematiksel çerçeveyi sağlar. Derin Takviye Öğrenimi, karmaşık, yüksek boyutlu durum uzaylarını işlemek için RL'yi Derin Öğrenme (DL) ile birleştirir.
  • Gizli Markov Modelleri (HMM): HMM'ler, modellenen sistemin gözlemlenmemiş (gizli) durumlara sahip bir Markov süreci olduğu varsayıldığında kullanılan istatistiksel modellerdir. MDP'lerin aksine, HMM'ler öncelikle gözlemlerden gizli durumları çıkarmaya odaklanır ve tipik olarak karar verme için eylemler veya ödüller içermez.
  • Dinamik Programlama: Model (geçişler ve ödüller) biliniyorsa MDP'leri çözebilen Değer İterasyonu ve Politika İterasyonu gibi teknikler dinamik programlama ilkelerine dayanmaktadır.

MDP'lere dayalı çözümler geliştirmek genellikle aşağıdaki gibi çerçeveler üzerine inşa edilmiş RL kütüphanelerini kullanmayı içerir PyTorch veya TensorFlow. Deneylerin ve model eğitiminin yönetilmesi, yapay zeka proje iş akışlarını kolaylaştırmak için Ultralytics HUB gibi platformları içerebilir. Etkili model değerlendirmesi, öğrenilen politikanın performansını değerlendirmek için çok önemlidir.

Tümünü okuyun