Büyük Dil Modellerinin (LLM) temellerini keşfedin. Transformer mimarisi, tokenleştirme ve LLM'leri Ultralytics ile nasıl birleştirebileceğinizi öğrenin.
Büyük Dil Modeli (LLM), insan dilini anlamak, üretmek ve işlemek için büyük veri kümeleri üzerinde eğitilmiş gelişmiş bir Yapay Zeka (AI) türüdür. Bu modeller, karmaşık dilbilimsel kalıpları, grameri ve anlamsal ilişkileri yakalamak için milyarlarca parametreye sahip sinir ağlarını kullanan Derin Öğrenme (DL) alanında önemli bir gelişmeyi temsil eder. Çoğu modern LLM, temelde, veri dizilerini sıralı değil paralel olarak işlemelerine olanak tanıyan Transformer mimarisine dayanır ve bu mimari, veri dizilerini sıralı olarak değil paralel olarak işlemelerine olanak tanır. Bu mimari, kendi kendine dikkat mekanizması kullanır ve modelin, metindeki uzaklıklarına bakılmaksızın, bir cümledeki farklı kelimelerin birbirlerine göre önemini değerlendirmesini sağlar.
LLM'nin işlevselliği, ham metnin token (kelime veya alt kelime) adı verilen daha küçük birimlere bölündüğü bir süreç olan tokenleştirme ile başlar. Model eğitim aşamasında, sistem internet, kitaplar ve makalelerden elde edilen petabaytlarca metni analiz eder. Sıradaki tokeni tahmin etmek için denetimsiz öğrenme sürecine girer ve dilin istatistiksel yapısını etkili bir şekilde öğrenir. LLM'nin işlevselliği, ham metnin token (kelime veya alt kelime) adı verilen daha küçük birimlere bölündüğü bir süreç olan tokenleştirme ile başlar. Model eğitim aşamasında, sistem internet, kitaplar ve makalelerden elde edilen petabaytlarca metni analiz eder. Sıradaki tokeni tahmin etmek için denetimsiz öğrenme sürec ine girer ve dilin istatistiksel yapısını etkili bir şekilde öğrenir.
Bu ilk eğitimin ardından, geliştiriciler genellikle modeli tıbbi analiz veya kodlama yardımı gibi farklı görevler için özelleştirmek üzere ince ayarlamalar yaparlar. Bu uyarlanabilirlik, Stanford Center for Research on Foundation Models gibi kuruluşların classify "temel modeller" classify nedenidir — belirli uygulamaların üzerine inşa edildiği geniş temeller. Bu temel modeller, daha karmaşık görevler için daha küçük, daha özel modellerin oluşturulmasında kullanılır.
LLM'ler, teorik araştırmanın ötesine geçerek çeşitli endüstrilerde pratik ve yüksek etkili uygulamalara dönüşmüştür:
Standart LLM'ler metni işlerken, sektör çok modlu yapay zekaya doğru kaymaktadır. Aşağıdaki örnek, dilbilimsel komutların, açık sözlük algılama için metin tanımlayıcılarını anlayan bir model olan YOLO kullanarak bilgisayar görme görevlerini nasıl kontrol edebileceğini göstermektedir. .
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
LLM'leri daha geniş veya paralel terimlerden ayırmak önemlidir:
Yeteneklerine rağmen, LLM'ler, eğitim verilerinde bulunan önyargıları istemeden yeniden üretebilecekleri için AI'daki önyargılarla ilgili zorluklarla karşı karşıyadır. Ayrıca, GPT-4 veya Google gibi modelleri eğitmek için gereken muazzam hesaplama gücü, enerji tüketimi konusunda endişelere yol açmaktadır. Araştırmalar şu anda, bu sistemleri uç donanımlarda çalışacak kadar verimli hale getirmek için model nicelleştirmeye odaklanmaktadır.
Daha derin teknik bilgiler için, orijinal makale Attention Is All You Need, Transformer'ların temel teorisini sunmaktadır. Ayrıca NVIDIA bu büyük iş yükleri için donanımı nasıl optimize ettiğini keşfedebilirsiniz. NVIDIA