Sözlük

Pekiştirmeli Öğrenme

Aracıların ödülleri en üst düzeye çıkarmak için deneme yanılma yoluyla eylemleri optimize ettiği pekiştirmeli öğrenmeyi keşfedin. Kavramları, uygulamaları ve faydaları keşfedin!

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Takviyeli Öğrenme (RL), bir ajanın belirli bir hedefe ulaşmak için bir ortamda eylemler gerçekleştirerek karar vermeyi öğrendiği Makine Öğrenimi (ML) içinde farklı bir alandır. Diğer ML paradigmalarının aksine, RL ajanlarına hangi eylemleri gerçekleştirecekleri açıkça söylenmez. Bunun yerine, deneme yanılma yoluyla öğrenirler ve eylemlerine bağlı olarak ödüller veya cezalar şeklinde geri bildirim alırlar. Temsilcinin temel amacı, zaman içinde kümülatif ödülünü en üst düzeye çıkaran ve politika olarak bilinen bir strateji öğrenmektir.

Pekiştirmeli Öğrenmede Temel Kavramlar

RL'yi anlamak birkaç temel bileşen içerir:

  • Aracı: Çevre ile etkileşime giren öğrenen veya karar verici.
  • Çevre: Temsilcinin etkileşimde bulunduğu dış dünya veya sistem. Temsilciye geri bildirim sağlar.
  • Durum: Ortamın mevcut durumunun veya konfigürasyonunun bir temsili. Bilgisayarla Görme (CV) uygulamalarında, durum görüntü verilerinden türetilebilir.
  • Eylem: Temsilci tarafından yapılan ve çevrenin durumunu etkileyen bir hareket veya karar.
  • Ödül: Çevreden gelen ve ajanın son eyleminin hedefe göre ne kadar iyi veya kötü olduğunu gösteren sayısal bir geri bildirim sinyali.
  • Politika: Ajanın mevcut duruma göre bir sonraki eylemi belirlemek için kullandığı strateji veya eşleme. RL'nin amacı en uygun politikayı bulmaktır.

Pekiştirmeli Öğrenme Nasıl Çalışır?

RL süreci yinelemelidir. Temsilci çevrenin mevcut durumunu gözlemler, mevcut politikasına göre bir eylem seçer ve bu eylemi gerçekleştirir. Ortam yeni bir duruma geçer ve ajana bir ödül sinyali sağlar. Temsilci bu ödül sinyalini politikasını güncellemek için kullanır ve gelecekte daha fazla ödül almayı hedefler. Bu sürecin kritik bir yönü keşif (potansiyel olarak daha iyi ödüller keşfetmek için yeni eylemler denemek) ve istismar (yüksek ödüller veren bilinen eylemleri kullanmak) arasındaki dengedir. Bu öğrenme döngüsü genellikle Markov Karar Süreçleri (MDP'ler) kullanılarak biçimlendirilir.

Diğer Makine Öğrenimi Türleri ile Karşılaştırma

RL, diğer birincil makine öğrenimi paradigmalarından önemli ölçüde farklıdır:

  • Denetimli Öğrenme: Her girdi için doğru çıktının sağlandığı etiketli veri kümelerinden öğrenir. RL, açık doğru eylem etiketleri olmadan ödül sinyallerinden öğrenir.
  • Denetimsiz Öğrenme: Etiketlenmemiş verilerdeki kalıpları ve yapıları bulur. RL, etkileşim ve geri bildirim yoluyla hedefe yönelik öğrenmeye odaklanır.

Sinir Ağları (NN) kullanmak gibi Derin Öğrenme (DL) teknikleri, karmaşık durum uzaylarını (görüntüler gibi) ve yaklaşık politikaları veya değer işlevlerini ele almak için genellikle RL (Derin Takviyeli Öğrenme olarak bilinir) içinde kullanılırken, ödüllere dayalı temel öğrenme mekanizması farklı kalmaktadır.

Gerçek Dünya Uygulamaları

RL, çeşitli karmaşık alanlarda kayda değer bir başarı göstermiştir:

  1. Oyun Oynama: RL ajanları Go(DeepMind'ın AlphaGo'su) ve çeşitli video oyunları(Dota 2'de OpenAI Five) gibi karmaşık oyunlarda insanüstü performans elde etmiştir. Bu ajanlar kendi kendilerine oyun oynayarak karmaşık stratejiler öğrenmekte ve insan yeteneklerinin çok ötesine geçmektedir. Bu yetenek Video Oyunlarında Yapay Zeka'da incelenmiştir.
  2. Robotik: RL, robotları hareket, nesne manipülasyonu ve montaj gibi görevleri yerine getirmek üzere eğitmek için kullanılır. Robotlar karmaşık motor becerilerini simüle edilmiş ortamlarda veya doğrudan gerçek dünya etkileşimi yoluyla öğrenebilir ve öngörülemeyen koşullara uyum sağlayabilir. Understanding Robotics Integration hakkında daha fazla bilgi edinebilirsiniz.
  3. Otonom Araçlar: RL algoritmaları, şerit değiştirme, birleşme veya kavşaklarda gezinme gibi sürüş politikalarını optimize etmek için kullanılabilir ve Kendi Kendini Süren Araçlarda Yapay Zeka'da tartışılan ilerlemelere katkıda bulunur.
  4. Öneri Sistemleri: RL, zaman içindeki etkileşimlere ve geri bildirimlere dayalı olarak kullanıcı tercihlerini öğrenerek ve değişen zevklere dinamik olarak uyum sağlayarak önerileri kişiselleştirebilir. Öneri sistemleri hakkında daha fazla bilgi edinin.

Takviyeli Öğrenme ve Bilgisayarla Görme

Başta robotik ve otonom sistemler olmak üzere gerçek dünyadaki birçok RL uygulamasında Bilgisayarlı Görme ( BG) çok önemli bir rol oynamaktadır. Gibi modeller Ultralytics YOLO RL ajanı tarafından kullanılan 'durum' temsilini oluşturarak çevre hakkında ilgili bilgileri çıkarmak için görsel girdiyi (örn. kamera beslemeleri) işleyebilir. Bu, ajanların çevrelerini algılamalarına ve görsel verilere dayanarak bilinçli kararlar almalarına olanak tanır. OpenAI Gym ve özel simülatörler gibi araçlar genellikle bu görüş tabanlı RL ajanlarını eğitmek için kullanılır. Ultralytics modelleri öncelikle denetimli öğrenme yoluyla algılama görevlerine odaklanırken, çıktıları fiziksel ajanları kontrol eden veya karmaşık görsel ortamlarda gezinen RL sistemleri için hayati girdiler olarak hizmet edebilir. Bu tür karmaşık sistemlerin eğitimi ve dağıtımı Ultralytics HUB gibi platformlar kullanılarak yönetilebilir.

RL kavramlarını temelden anlamak için Sutton ve Barto'nun Reinforcement Learning kitabının giriş bölümleri gibi kaynaklar şiddetle tavsiye edilir.

Tümünü okuyun