Yeşil çek
Panoya kopyalanan bağlantı

Meta'nın Laması 3'ü Tanıyalım

Meta'nın Llama 3'ü kısa süre önce piyasaya sürüldü ve yapay zeka topluluğu tarafından büyük bir heyecanla karşılandı. Meta AI gelişmelerinin en yenisi olan Llama 3 hakkında daha fazla bilgi edinelim.

2024'ün ilk çeyreğindeki yapay zeka (AI) yeniliklerini toparladığımızda, LLM'lerin veya büyük dil modellerinin farklı kuruluşlar tarafından sağda ve solda piyasaya sürüldüğünü gördük. Bu eğilimi sürdüren Meta, 18 Nisan 2024'te yeni nesil, son teknoloji ürünü açık kaynaklı bir LLM olan Llama 3'ü piyasaya sürdü. 

Düşünüyor olabilirsiniz: Bu sadece başka bir LLM. Yapay zeka topluluğu neden bu kadar heyecanlı?

GPT-3 veya Gemini gibi modellere özelleştirilmiş yanıtlar için ince ayar yapabilseniz de, eğitim verileri, model parametreleri veya algoritmaları gibi iç işleyişlerine ilişkin tam şeffaflık sunmazlar. Buna karşılık Meta'nın Llama 3 modeli, mimarisi ve ağırlıklarının indirilebilir olmasıyla daha şeffaftır. Yapay zeka topluluğu için bu, daha fazla deneme özgürlüğü anlamına geliyor.

Bu makalede, Llama 3'ün neler yapabildiğini, nasıl ortaya çıktığını ve yapay zeka alanındaki etkisini öğreneceğiz. Hemen başlayalım!

Meta'nın Lama Modellerinin Evrimi

Llama 3'e geçmeden önce, önceki versiyonlarına bir göz atalım.

Meta, Şubat 2023'te 7 milyar ila 64 milyar arasında değişen parametrelere sahip dört varyantı olan Llama 1'i piyasaya sürdü. Makine öğreniminde "parametreler", eğitim verilerinden öğrenilen modelin unsurlarını ifade eder. Daha az sayıda parametreye sahip olması nedeniyle Llama 1 bazen nüanslı anlamada zorlandı ve tutarsız yanıtlar verdi.

Llama 1'den kısa bir süre sonra Meta, Temmuz 2023'te Llama 2 'yi piyasaya sürdü. Bu model 2 trilyon belirteç üzerinde eğitilmiştir. Bir jeton, modelde işlenmek üzere temel veri birimi olarak kullanılan bir kelime veya kelimenin bir kısmı gibi bir metin parçasını temsil eder. Model ayrıca daha uzun pasajları anlamak için iki katına çıkarılmış 4096 jetonluk bir bağlam penceresi ve hataları azaltmak için 1 milyondan fazla insan ek açıklaması gibi geliştirmeler içeriyordu. Bu iyileştirmelere rağmen, Llama 2 hala çok fazla bilgi işlem gücüne ihtiyaç duyuyordu ve Meta bunu Lama 3 ile düzeltmeyi hedefliyordu.

Karşınızda Meta'nın Laması 3

Llama 3, şaşırtıcı bir şekilde 15 trilyon token'a karşı eğitilmiş dört varyantla birlikte gelir. Bu eğitim verilerinin %5'inden fazlası (yaklaşık 800 milyon belirteç) 30 farklı dildeki verileri temsil etmektedir. Tüm Llama 3 varyantları çeşitli tüketici donanımları üzerinde çalıştırılabilir ve 8 bin jetonluk bir bağlam uzunluğuna sahiptir. 

Şekil 1. Lama 3, Lama 2'ye karşı.

Model varyantları iki boyutta gelir: Sırasıyla 8 milyar ve 70 milyar parametreyi gösteren 8B ve 70B. Ayrıca temel ve talimat olmak üzere iki versiyon vardır. "Base" önceden eğitilmiş standart versiyonu ifade eder. "Instruct", ilgili veriler üzerinde ek eğitim yoluyla belirli uygulamalar veya etki alanları için optimize edilmiş ince ayarlı bir sürümdür.

Bunlar Llama 3 model varyantlarıdır:

  • Meta-Llama-3-8b: Temel 8B modeli, temel yapay zeka yetenekleri sağlar ve müşteri hizmetleri sohbet botları geliştirmek gibi genel görevler için idealdir.
  • Meta-Llama-3-8b-instruct: 8B modelinin belirli görevler için optimize edilmiş, ince ayarlı bir instruct sürümü. Örneğin, karmaşık konuları açıklayan eğitim araçları oluşturmak için kullanılabilir.
  • Meta-Llama-3-70b: Temel 70B modeli, yüksek performanslı yapay zeka uygulamaları için tasarlanmıştır. Bu model, ilaç keşfi için kapsamlı biyomedikal literatürün işlenmesi gibi uygulamalar için iyi sonuç verecektir.
  • Meta-Llama-3-70b-instruct: Bu sürüm, doğruluğun kritik olduğu yasal veya tıbbi belgelerin analizi gibi son derece hassas uygulamalar için 70B modelinden ince ayarlanmıştır.

Meta'nın Lama 3 Model Mimarisi

Diğer tüm Meta AI gelişmelerinde olduğu gibi, Llama 3 geliştirilirken veri bütünlüğünü korumak ve önyargıları en aza indirmek için titiz kalite kontrol önlemleri alınmıştır. Dolayısıyla, nihai ürün sorumlu bir şekilde oluşturulmuş güçlü bir modeldir. 

Llama 3 model mimarisi, doğal dil işleme görevlerinde verimlilik ve performansa odaklanmasıyla öne çıkmaktadır. Transformer tabanlı bir çerçeve üzerine inşa edilen bu model, yalnızca kod çözücü mimarisi kullanarak özellikle metin üretimi sırasında hesaplama verimliliğini vurgulamaktadır. 

Model, girdileri kodlamak için bir kodlayıcı olmadan yalnızca önceki bağlama dayalı çıktılar üretir ve bu da onu çok daha hızlı hale getirir.

Şekil 2. Llama 3 Sorumlu Model Mimarisi.

Llama 3 modelleri, 128 bin jetonluk bir kelime haznesine sahip bir jetonlaştırıcıya sahiptir. Daha geniş bir sözcük dağarcığı, modellerin metni daha iyi anlayabileceği ve işleyebileceği anlamına gelir. Ayrıca, modeller artık çıkarım verimliliğini artırmak için gruplandırılmış sorgu dikkatini (GQA) kullanıyor. GQA, modellerin daha hızlı ve daha doğru yanıtlar üretmek için girdi verilerinin ilgili kısımlarına odaklanmasına yardımcı olan bir spot ışığı olarak düşünebileceğiniz bir tekniktir.

İşte Llama 3'ün model mimarisi hakkında birkaç ilginç ayrıntı daha:

  • Sınırlara Duyarlı Belge İşleme: Llama 3, özetleme gibi görevler için önemli olan belge sınırları boyunca netliği korur.
  • Daha İyi Kod Anlama: Llama 3'ün eğitim verileri dört kat daha fazla kod örneği içerir ve kodlama yeteneklerini artırır.
  • Sağlam Kalite Kontrolü: Sezgisel filtreler ve NSFW kaldırma dahil olmak üzere titiz önlemler, veri bütünlüğünü sağlar ve önyargıları en aza indirir.

Llama 3 Model Eğitimine Yaklaşımımızı Dönüştürüyor

En büyük Llama 3 modellerini eğitmek için üç tür paralelleştirme birleştirilmiştir: veri paralelleştirme, model paralelleştirme ve boru hattı paralelleştirme. 

Veri paralelleştirme eğitim verilerini birden fazla GPU'ya bölerken, model paralelleştirme model mimarisini her birinin hesaplama gücünü kullanmak üzere bölümlere ayırır GPU. Boru hattı paralelleştirme, eğitim sürecini sıralı aşamalara bölerek hesaplama ve iletişimi optimize eder.

En verimli uygulama, eş zamanlı olarak 16.000 GPU üzerinde eğitildiğinde GPU başına 400 TFLOPS'u aşarak kayda değer bir işlem kullanımı elde etmiştir. Bu eğitim çalışmaları, her biri 24.000 GPU içeren iki özel yapım GPU kümesinde gerçekleştirilmiştir. Bu önemli hesaplama altyapısı, büyük ölçekli Llama 3 modellerini verimli bir şekilde eğitmek için gerekli gücü sağlamıştır.

GPU çalışma süresini en üst düzeye çıkarmak için hata algılama, işleme ve bakımı otomatikleştiren gelişmiş yeni bir eğitim yığını geliştirildi. Sessiz veri bozulması risklerini azaltmak için donanım güvenilirliği ve algılama mekanizmaları büyük ölçüde geliştirildi. Ayrıca, kontrol noktası oluşturma ve geri alma ek yüklerini azaltmak için yeni ölçeklenebilir depolama sistemleri geliştirilmiştir. 

Bu iyileştirmeler, genel eğitim süresinin %95'ten fazla etkin olmasını sağladı. Bir araya geldiklerinde, Llama 3 eğitiminin verimliliğini Llama 2'ye kıyasla yaklaşık üç kat artırdılar. Bu verimlilik sadece etkileyici değil; aynı zamanda yapay zeka eğitim yöntemleri için yeni olasılıkların önünü açıyor. 

Lama ile Kapıları Açmak 3

Llama 3 açık kaynaklı olduğu için araştırmacılar ve öğrenciler kodunu inceleyebilir, deneyler yapabilir ve etik kaygılar ve önyargılar hakkında tartışmalara katılabilirler. Ancak, Llama 3 sadece akademik kalabalık için değil. Pratik uygulamalarda da dalgalar yaratıyor. Facebook, Instagram, WhatsApp ve Messenger gibi platformlara sorunsuz bir şekilde entegre olarak Meta AI Sohbet Arayüzünün bel kemiği haline geliyor. Meta AI ile kullanıcılar doğal dilde konuşmalar yapabilir, kişiselleştirilmiş önerilere erişebilir, görevleri yerine getirebilir ve başkalarıyla kolayca bağlantı kurabilir.

Şekil 3. Meta AI: Llama 3 tarafından desteklenmektedir.

Llama 3'ün Diğer LLM'lerle Karşılaştırılması

Llama 3, karmaşık dil anlama ve muhakeme yeteneklerini değerlendiren çeşitli temel ölçütlerde olağanüstü iyi performans gösterir. İşte Llama 3'ün yeteneklerinin çeşitli yönlerini test eden bazı kıyaslamalar:

  • Massive Multitask Language Understanding (MMLU) - Çeşitli alanlardaki bilgisini ölçer. 
  • Genel Amaçlı Soru Yanıtlama (GPQA) - Modelin çok çeşitli genel bilgi sorularına tutarlı ve doğru yanıtlar üretme becerisini değerlendirir.
  • HumanEval - Kodlama ve problem çözme görevlerine odaklanarak modelin işlevsel programlama kodu üretme ve algoritmik zorlukları çözme becerisini test eder.

Llama 3'ün bu testlerdeki olağanüstü sonuçları, onu Google'un Gemma 7B, Mistral'in Mistral 7B ve Anthropic'un Claude 3 Sonnet gibi rakiplerinden açıkça ayırmaktadır. Yayınlanan istatistiklere göre, özellikle 70B modeli, Llama 3 yukarıdaki tüm kıyaslamalarda bu modellerden daha iyi performans gösteriyor.

Şekil 4. Llama 3'ün Diğer LLM'lerle Karşılaştırılması.

Meta Llama 3 Yaygın Olarak Erişilebilir Hale Getiriliyor

Meta, Llama 3'ü hem genel kullanıcılar hem de geliştiriciler için çeşitli platformlarda kullanılabilir hale getirerek erişim alanını genişletiyor. Günlük kullanıcılar için Llama 3, Meta'nın WhatsApp, Instagram, Facebook ve Messenger gibi popüler platformlarına entegre edilmiştir. Kullanıcılar gerçek zamanlı arama ve yaratıcı içerik üretme gibi gelişmiş özelliklere doğrudan bu uygulamalardan erişebiliyor. 

Llama 3 ayrıca etkileşimli deneyimler için Ray-Ban Meta akıllı gözlük ve Meta Quest VR başlığı gibi giyilebilir teknolojilere de dahil ediliyor.

Llama 3, AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM ve Snowflake dahil olmak üzere geliştiriciler için çeşitli platformlarda mevcuttur. Bu modellere doğrudan Meta'dan da erişebilirsiniz. Geniş seçenek yelpazesi, ister doğrudan Meta ile ister diğer popüler platformlar aracılığıyla çalışmayı tercih etsinler, geliştiricilerin bu gelişmiş yapay zeka modeli yeteneklerini projelerine entegre etmelerini kolaylaştırır.

Paket Servis

Makine öğrenimindeki gelişmeler teknolojiyle etkileşimimizi her geçen gün dönüştürmeye devam ediyor. Meta'nın Llama 3'ü, LLM'lerin artık sadece metin üretmekten ibaret olmadığını gösteriyor. LLM'ler karmaşık sorunların üstesinden geliyor ve birden fazla dili idare ediyor. Genel olarak, Llama 3 yapay zekayı her zamankinden daha uyarlanabilir ve erişilebilir hale getiriyor. İleriye baktığımızda, Llama 3 için planlanan yükseltmeler, birden fazla modeli işleme ve daha büyük bağlamları anlama gibi daha da fazla yetenek vaat ediyor. 

GitHub depomuza göz atın ve yapay zeka hakkında daha fazla bilgi edinmek için topluluğumuza katılın. Yapay zekanın üretim ve tarım gibi alanlarda nasıl uygulandığını görmek için çözümler sayfalarımızı ziyaret edin.

Facebook logosuTwitter logosuLinkedIn logosuKopya-bağlantı sembolü

Bu kategoride daha fazlasını okuyun

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın