Sözlük

Tokenizasyon

NLP ve ML'de tokenizasyonun gücünü keşfedin! Metni jetonlara ayırmanın duygu analizi ve metin oluşturma gibi yapay zeka görevlerini nasıl geliştirdiğini öğrenin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Tokenizasyon, Yapay Zeka (AI) ve Makine Öğreniminde (ML), özellikle Doğal Dil İşleme (NLP) için hayati önem taşıyan temel bir ön işleme adımıdır. Metin veya diğer veri dizilerinin token adı verilen daha küçük, yönetilebilir birimlere ayrılmasını içerir. Bu belirteçler, algoritmaların bilgiyi anlamak ve işlemek için kullandığı temel yapı taşları olarak hizmet eder ve ham girdiyi analiz için uygun bir formata dönüştürür.

Tokenizasyon Nasıl Çalışır?

Tokenizasyonun arkasındaki temel fikir segmentasyondur. Metin verileri için bu, genellikle cümleleri önceden tanımlanmış kurallara veya öğrenilmiş kalıplara göre kelimelere, alt kelimelere ve hatta tek tek karakterlere bölmek anlamına gelir. Örneğin,Ultralytics YOLOv8 güçlüdür" cümlesi şu şekilde tokenize edilebilir: ["Ultralytics", "YOLOv8", "is", "powerful"]. Seçilen özel yöntem göreve ve model mimarisine bağlıdır. Yaygın teknikler arasında boşluklara ve noktalama işaretlerine göre bölme veya daha gelişmiş yöntemler kullanma yer alır Bayt Çifti Kodlaması (BPE) veya WordPiece'de sıklıkla kullanılan Büyük Dil Modelleri (LLM'ler) gibi BERT Büyük kelime dağarcığını ve bilinmeyen kelimeleri etkili bir şekilde ele almak için.

Uygunluk ve Gerçek Dünya Uygulamaları

Çoğu makine öğrenimi modeli sayısal girdiye ihtiyaç duyduğundan tokenlaştırma çok önemlidir. Metni ayrık belirteçlere dönüştürerek, bu belirteçleri gömme gibi sayısal temsillerle eşleştirebilir ve modellerin veri içindeki kalıpları ve ilişkileri öğrenmesini sağlayabiliriz. Bu süreç çok sayıda yapay zeka uygulamasının temelini oluşturur:

  1. Makine Çevirisi: Google Translate gibi hizmetler, kaynak dildeki girdi cümlelerini belirteçlere dönüştürür, bu belirteçleri karmaşık sinir ağları (genellikle Transformers) kullanarak işler ve ardından hedef dilde belirteçler oluşturur ve bunlar son olarak tekrar cümlelere birleştirilir. Doğru tokenizasyon, dilsel nüansların doğru şekilde yakalanmasını sağlar.
  2. Duygu Analizi: "Hizmet mükemmeldi!" gibi bir müşteri yorumunun hissiyatını belirlemek için metin önce tokenize edilir (["The", "service", "was", "excellent", "!"]). Her biri belirteç daha sonra, genellikle modelin genel duyarlılığı olumlu, olumsuz veya nötr olarak sınıflandırmasına olanak tanıyan gömme kullanılarak analiz edilir. Bu, müşteri geri bildirimlerini analiz eden işletmeler için çok önemlidir. Duygu Analizi hakkında daha fazla bilgi edinin.
  3. Görme-Dil Modelleri: CLIP veya Ultralytics YOLO gibi modeller, sıfır çekim nesne algılama veya görüntü segmentasyonu gibi görevler için kullanıcı sorgularını anlamak üzere metin istemlerini belirtmeye dayanır. Metin belirteçleri görüntülerden öğrenilen görsel özelliklerle bağlantılıdır.

Bilgisayarlı Görüde Tokenizasyon

Geleneksel olarak NLP ile ilişkilendirilse de bu kavram Bilgisayarla Görme (CV) alanına da uzanmaktadır. Görme Dönüştürücülerinde (ViT), görüntüler 'görsel belirteçler' olarak ele alınan sabit boyutlu yamalara bölünür. Bu belirteçler daha sonra NLP dönüştürücülerindeki metin belirteçlerine benzer şekilde işlenir ve modellerin görüntülerdeki uzamsal hiyerarşileri ve bağlamı anlamasını sağlar.

Avantajlar ve Araçlar

Etkili tokenizasyon giriş verilerini standartlaştırır, modeller için işlemeyi basitleştirir ve özellikle alt kelime yöntemleriyle kelime dağarcığı boyutunu yönetmeye yardımcı olur. Hugging Face Tokenizers gibi kütüphaneler ve NLTK gibi araç setleri sağlam uygulamalar sağlar. Ultralytics HUB gibi platformlar genellikle tokenizasyon da dahil olmak üzere veri ön işlemenin karmaşıklıklarını soyutlayarak aşağıdaki gibi çerçevelerle oluşturulan eğitim modelleri için iş akışını kolaylaştırır PyTorch veya TensorFlow. Tokenlaştırmayı anlamak, birçok modern yapay zeka sistemini oluşturmanın ve optimize etmenin anahtarıdır.

Tümünü okuyun