Aracıların ödülleri en üst düzeye çıkarmak için deneme yanılma yoluyla eylemleri optimize ettiği pekiştirmeli öğrenmeyi keşfedin. Kavramları, uygulamaları ve faydaları keşfedin!
Takviyeli Öğrenme (RL), bir ajanın belirli bir hedefe ulaşmak için bir ortamda eylemler gerçekleştirerek karar vermeyi öğrendiği Makine Öğrenimi (ML) içinde farklı bir alandır. Diğer ML paradigmalarının aksine, RL ajanlarına hangi eylemleri gerçekleştirecekleri açıkça söylenmez. Bunun yerine, deneme yanılma yoluyla öğrenirler ve eylemlerine bağlı olarak ödüller veya cezalar şeklinde geri bildirim alırlar. Temsilcinin temel amacı, zaman içinde kümülatif ödülünü en üst düzeye çıkaran ve politika olarak bilinen bir strateji öğrenmektir.
RL'yi anlamak birkaç temel bileşen içerir:
RL süreci yinelemelidir. Temsilci çevrenin mevcut durumunu gözlemler, mevcut politikasına göre bir eylem seçer ve bu eylemi gerçekleştirir. Ortam yeni bir duruma geçer ve ajana bir ödül sinyali sağlar. Temsilci bu ödül sinyalini politikasını güncellemek için kullanır ve gelecekte daha fazla ödül almayı hedefler. Bu sürecin kritik bir yönü keşif (potansiyel olarak daha iyi ödüller keşfetmek için yeni eylemler denemek) ve istismar (yüksek ödüller veren bilinen eylemleri kullanmak) arasındaki dengedir. Bu öğrenme döngüsü genellikle Markov Karar Süreçleri (MDP'ler) kullanılarak biçimlendirilir.
RL, diğer birincil makine öğrenimi paradigmalarından önemli ölçüde farklıdır:
Sinir Ağları (NN) kullanmak gibi Derin Öğrenme (DL) teknikleri, karmaşık durum uzaylarını (görüntüler gibi) ve yaklaşık politikaları veya değer işlevlerini ele almak için genellikle RL (Derin Takviyeli Öğrenme olarak bilinir) içinde kullanılırken, ödüllere dayalı temel öğrenme mekanizması farklı kalmaktadır.
RL, çeşitli karmaşık alanlarda kayda değer bir başarı göstermiştir:
Başta robotik ve otonom sistemler olmak üzere gerçek dünyadaki birçok RL uygulamasında Bilgisayarlı Görme ( BG) çok önemli bir rol oynamaktadır. Gibi modeller Ultralytics YOLO RL ajanı tarafından kullanılan 'durum' temsilini oluşturarak çevre hakkında ilgili bilgileri çıkarmak için görsel girdiyi (örn. kamera beslemeleri) işleyebilir. Bu, ajanların çevrelerini algılamalarına ve görsel verilere dayanarak bilinçli kararlar almalarına olanak tanır. OpenAI Gym ve özel simülatörler gibi araçlar genellikle bu görüş tabanlı RL ajanlarını eğitmek için kullanılır. Ultralytics modelleri öncelikle denetimli öğrenme yoluyla algılama görevlerine odaklanırken, çıktıları fiziksel ajanları kontrol eden veya karmaşık görsel ortamlarda gezinen RL sistemleri için hayati girdiler olarak hizmet edebilir. Bu tür karmaşık sistemlerin eğitimi ve dağıtımı Ultralytics HUB gibi platformlar kullanılarak yönetilebilir.
RL kavramlarını temelden anlamak için Sutton ve Barto'nun Reinforcement Learning kitabının giriş bölümleri gibi kaynaklar şiddetle tavsiye edilir.