Sözlük

Pekiştirmeli Öğrenme

Aracıların ödülleri en üst düzeye çıkarmak için deneme yanılma yoluyla eylemleri optimize ettiği pekiştirmeli öğrenmeyi keşfedin. Kavramları, uygulamaları ve faydaları keşfedin!

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Takviyeli Öğrenme (RL), akıllı bir ajanın eylemleri için aldığı ödülü en üst düzeye çıkarmaya çalışarak bir dizi karar vermeyi öğrendiği bir Makine Öğrenimi (ML) türüdür. Etiketli örneklerden öğrenen denetimli öğrenmenin veya etiketsiz verilerdeki kalıpları bulan denetimsiz öğrenmenin aksine RL, bir ortamla etkileşime girerek deneme yanılma yoluyla öğrenir. Aracı, gerçekleştirdiği eylemlere bağlı olarak ödüller veya cezalar şeklinde geri bildirim alır ve öğrenme sürecini belirli bir hedefe ulaşmaya yönlendirir.

Temel Kavramlar

Birkaç temel bileşen bir Takviyeli Öğrenme sistemini tanımlar:

  • Aracı: Çevre ile etkileşime giren öğrenen veya karar veren varlık.
  • Çevre: Temsilcinin içinde faaliyet gösterdiği dış sistem veya dünya.
  • Durum: Temsilci tarafından algılanan ortamın mevcut durumunun veya konfigürasyonunun bir temsili.
  • Eylem: Temsilci tarafından çevre içinde verilen bir karar veya hareket.
  • Ödül: Bir eylemi gerçekleştirdikten sonra çevreden alınan ve bu eylemin belirli bir durumda ne kadar iyi veya kötü olduğunu gösteren sayısal bir sinyal. Temsilcinin amacı tipik olarak zaman içinde kümülatif ödülü maksimize etmektir.
  • Politika: Temsilcinin mevcut duruma göre bir sonraki eylemi belirlemek için kullandığı strateji veya eşleme. Bu esasen temsilcinin öğrendiği şeydir.
  • Değer Fonksiyonu: Belirli bir durumdan veya belirli bir durumda belirli bir eylemi gerçekleştirerek, belirli bir politikayı izleyerek elde edilebilecek gelecekteki beklenen ödüllerin bir tahmini.
  • Markov Karar Süreci (MDP): RL problemlerini modellemek için yaygın olarak kullanılan, ajan ve çevre arasındaki etkileşimleri tanımlayan matematiksel bir çerçeve.

RL'deki temel zorluklardan biri keşif-sömürü ödünleşimidir: ajan, potansiyel olarak daha yüksek ödüller keşfetmek için yeni eylemler keşfetmek (keşif) ile iyi ödüller verdiği bilinen eylemleri seçmek (sömürü) arasında denge kurmalıdır.

Pekiştirmeli Öğrenme Nasıl Çalışır?

RL süreci tipik olarak yinelemelidir. Temsilci çevrenin mevcut durumunu gözlemler, mevcut politikasına göre bir eylem seçer, eylemi gerçekleştirir ve çevreden bir ödül (veya ceza) ve bir sonraki durumu alır. Bu geri bildirim, ajanın politikasını veya değer fonksiyonunu güncellemek için kullanılır ve zaman içinde karar verme sürecini iyileştirir. Yaygın RL algoritmaları, her biri politikayı öğrenmek ve güncellemek için farklı stratejiler kullanan Q-öğrenme, SARSA ve Politika Gradyanı yöntemlerini içerir. Derin Takviyeli Öğrenme (DRL), politikaları veya değer fonksiyonlarını yaklaşık olarak belirlemek için sinir ağlarını (NN) kullanarak RL'yi derin öğrenme teknikleriyle birleştirir ve RL'nin görüntüler veya sensör verileri gibi karmaşık, yüksek boyutlu durum uzaylarıyla ilgili sorunların üstesinden gelmesini sağlar.

Diğer Öğrenme Paradigmaları ile Karşılaştırma

RL diğer makine öğrenimi paradigmalarından önemli ölçüde farklıdır:

  • Denetimli Öğrenme: Etiketli örnekler (girdi-çıktı çiftleri) içeren bir veri kümesinden öğrenir. Amaç, yeni girdiler için çıktıları tahmin eden bir eşleme fonksiyonu öğrenmektir. Örnekler arasında görüntü sınıflandırma ve regresyon yer alır. RL, önceden tanımlanmış doğru cevaplardan değil, etkileşim ve geri bildirimden (ödüller) öğrenir.
  • Denetimsiz Öğrenme: Etiketlenmemiş verilerden örüntüleri ve yapıları öğrenir. Örnekler arasında kümeleme ve boyut azaltma yer alır. RL hedef odaklıdır, ödülleri en üst düzeye çıkarmak için bir politika öğrenirken, denetimsiz öğrenme veri yapısı keşfine odaklanır.

Gerçek Dünya Uygulamaları

RL, çeşitli alanlarda atılımlar yapılmasını sağlamıştır:

  • Robotik: Robotları, bilmedikleri ortamlarda nesne manipülasyonu, hareket ve navigasyon gibi karmaşık görevleri yerine getirmeleri için eğitmek. Boston Dynamics gibi şirketler, genellikle RL ilkeleri kullanılarak geliştirilen gelişmiş robotik yetenekleri sergilemektedir. Ultralytics 'in robotikte bilgisayarla görmeyi entegre etme çalışmalarına bakın.
  • Oyun Oynama: Go(DeepMind'ın AlphaGo'su) ve karmaşık video oyunları(OpenAI Five) gibi karmaşık oyunlarda insanüstü performans gösteren ajanlar yaratmak.
  • Otonom Araçlar: Sürücüsüz araçlar için yol planlama ve kontrol stratejileri gibi karar verme sistemleri geliştirmek. Otomotiv çözümlerinde yapay zekayı keşfedin.
  • Öneri Sistemleri: Uzun vadeli etkileşimi en üst düzeye çıkarmak için kullanıcı etkileşimlerine dayalı önerileri (ör. filmler, ürünler) optimize etme.
  • Kaynak Yönetimi: Enerji şebekesi yönetimi, trafik ışığı kontrolü(Trafik Yönetiminde Yapay Zeka) ve tedarik zinciri lojistiği gibi alanlarda kaynak tahsisinin optimize edilmesi.

Yapay Zeka Ekosisteminde Uygunluk

Takviyeli Öğrenme, özellikle karmaşık karar verme yeteneğine sahip otonom sistemler oluşturmak için daha geniş Yapay Zeka (AI) ortamının çok önemli bir bileşenidir. Ultralytics gibi şirketler vizyon yapay zeka modellerinde uzmanlaşırken Ultralytics YOLO Denetimli öğrenme kullanarak nesne alg ılama ve örnek segmentasyonu gibi görevler için, bu modeller tarafından sağlanan algılama yetenekleri genellikle RL ajanları için temel girdilerdir (durumlar). Örneğin, bir robot, bir RL politikası bir sonraki hareketine karar vermeden önce çevresini anlamak için Ultralytics HUB aracılığıyla dağıtılan bir nesne algılama modelini kullanabilir. RL'yi anlamak, gelişmiş algının, genellikle aşağıdaki gibi çerçeveler kullanılarak geliştirilen akıllı, otonom sistemler oluşturmaya nasıl uyduğuna ilişkin bağlam sağlar PyTorch ve Gymnasium (eski adıyla OpenAI Gym) gibi simülasyon ortamlarında test edilmiştir. Birçok gerçek dünya uygulaması, algıyı(Bilgisayarla Görme) karar verme (RL) ile entegre etmeyi içerir.

Tümünü okuyun