Yapay zeka modellerinin yapı taşları olan belirteçlerin NLP'ye, bilgisayarla görmeye ve duygu analizi ve nesne algılama gibi görevlere nasıl güç verdiğini öğrenin.
Yapay Zeka ve Makine Öğrenimi alanında, özellikle Doğal Dil İşleme (NLP) ve giderek artan bir şekilde bilgisayarla görme alanında, bir 'token' bir modelin işlediği en küçük veri birimini temsil eder. Jetonları, yapay zeka modellerinin metin, görüntü veya diğer veri biçimleri olsun, bilgileri anlamak ve analiz etmek için kullandığı temel yapı taşları olarak düşünün.
Tokenizasyon, ham veriyi bu daha küçük, sindirilebilir parçalara ayırma işlemidir. Örneğin NLP'de metin kelimelere, alt kelime birimlerine ve hatta karakterlere ayrılır. Bu işlem, sürekli metni makine öğrenimi modellerinin etkili bir şekilde işleyebileceği ayrık birimlere dönüştürür. Verilerin tokenize edilme şekli model performansını ve verimliliğini önemli ölçüde etkileyebilir.
Belirteçler çok önemlidir çünkü makine öğrenimi modelleri, özellikle de Ultralytics YOLO adresinde kullanılanlar gibi derin öğrenme modelleri, ham, yapılandırılmamış verileri doğrudan işleyemez. Verilerin sayısal veya ayrık bir formatta olmasını gerektirirler. Tokenizasyon, karmaşık girdileri algoritmaların anlayabileceği ve öğrenebileceği bir formata dönüştürerek bir köprü görevi görür. Bu dönüşüm metin oluşturma, duygu analizi ve nesne algılama gibi görevler için gereklidir.
Jetonlar çeşitli yapay zeka ve makine öğrenimi görevlerinde uygulama alanı bulmaktadır. İşte birkaç somut örnek:
Doğal Dil İşleme (NLP): NLP'de belirteçler dil modellerinin temel taşlarıdır. Örneğin, duygu analizi yaparken, "Bu film harikaydı!" gibi bir cümle ["Bu", "film", "idi", "fantastik", "!"] şeklinde tokenize edilebilir. Bu belirteçlerin her biri daha sonra, modelin duyguyu anlamak için kullandığı kelime katıştırmaları gibi sayısal bir temsile dönüştürülür. GPT-4 ve GPT-3 gibi büyük dil modelleri, metni işlemek ve oluşturmak için büyük ölçüde belirteçlere dayanır. İstem zincirleme ve istem ayarlama gibi teknikler, bu modellerden istenen çıktıları elde etmek için belirteç dizilerini manipüle etme ve optimize etme etrafında tasarlanmıştır.
Bilgisayarla Görme: Geleneksel olarak NLP ile ilişkilendirilse de, belirteçler modern bilgisayarla görme modellerinde, özellikle de Görme Dönüştürücülerinin (ViT) yükselişiyle birlikte giderek daha önemli hale gelmektedir. Segment Anything Model (SAM) gibi modellerde, görüntüler genellikle görsel belirteçler olarak düşünülebilecek yamalara ayrılır. Bu görsel simgeler daha sonra dönüştürücü ağlar tarafından işlenir ve görüntü segmentasyonu ve nesne tespiti gibi görevler için görüntünün farklı bölümleri arasındaki ilişkileri anlamak üzere dikkat mekanizmalarından yararlanılır. Nesne algılama modellerinde bile Ultralytics YOLOv8ViT'lerle aynı şekilde açıkça 'görsel belirteçler' kullanmasa da, bir görüntüyü bir ızgaraya ayırma ve her bir ızgara hücresini işleme kavramı, her bir ızgara hücresinin bir analiz birimi haline geldiği bir örtük belirteçleştirme biçimi olarak görülebilir.
Jetonları anlamak, YZ modellerinin bilgiyi nasıl işlediğini kavramak için temeldir. YZ gelişmeye devam ettikçe, belirteçler ve belirteçleştirme kavramı, çeşitli veri türlerini ele almak ve daha sofistike ve verimli modeller oluşturmak için muhtemelen daha da merkezi hale gelecektir.