تعرف على كيفية استخدام الرموز كوحدات أساسية للمعلومات في الذكاء الاصطناعي. اكتشف دورها في معالجة اللغة الطبيعية والرؤية الحاسوبية واكتشاف المفردات المفتوحة باستخدام YOLO26.
في البنية المتطورة للذكاء الاصطناعي الحديث ، يمثل الرمز الوحدة الأساسية والجزئية للمعلومات التي يعالجها النموذج. قبل أن يتمكن الخوارزمية من تفسير جملة أو تحليل برنامج نصي أو التعرف على كائنات في صورة، يجب تقسيم البيانات الأولية المدخلة إلى هذه العناصر المنفصلة والموحدة. يعد هذا التقسيم خطوة محورية في معالجة البيانات المسبقة، حيث يحول المدخلات غير المنظمة إلى تنسيق رقمي يمكن للشبكات العصبية حسابه بكفاءة. بينما يدرك البشر اللغة على أنها تدفق مستمر للأفكار أو الصور كمشاهد بصرية سلسة، تتطلب النماذج الحسابية هذه اللبنات الأساسية الدقيقة لأداء عمليات مثل التعرف على الأنماط والتحليل الدلالي.
لفهم آليات التعلم الآلي، من الضروري التمييز بين وحدة البيانات والعملية المستخدمة لإنشائها. هذا التمييز يمنع الالتباس عند تصميم خطوط أنابيب البيانات وإعداد مواد التدريب على Ultralytics .
تختلف طبيعة الرمز بشكل كبير اعتمادًا على طريقة معالجة البيانات، خاصة بين المجالات النصية والبصرية.
في مجال معالجة اللغة الطبيعية (NLP)، تعد الرموز المدخلات لنماذج اللغة الكبيرة (LLMs). كانت الطرق القديمة تعتمد بشكل صارم على الكلمات الكاملة، ولكن البنى الحديثة تستخدم خوارزميات الكلمات الفرعية مثل ترميز أزواج البايتات (BPE). تسمح هذه الطريقة للنماذج بمعالجة الكلمات النادرة عن طريق تقسيمها إلى مقاطع لفظية ذات معنى، مما يوازن بين حجم المفردات والتغطية الدلالية. على سبيل المثال، يمكن تقسيم كلمة "unhappiness" إلى "un" و"happi" و "ness".
توسع مفهوم الترميز إلى الرؤية الحاسوبية مع ظهور Vision Transformer (ViT). على عكس الشبكات التلافيفية التقليدية التي تعالج البكسلات في نوافذ منزلقة، تقسم Transformers الصورة إلى شبكة من البقع ذات الحجم الثابت (على سبيل المثال، 16x16 بكسل). يتم تسوية كل رقعة ومعالجتها كرمز بصري مميز. يتيح هذا النهج للنموذج استخدام آليات الانتباه الذاتي لفهم العلاقة بين الأجزاء البعيدة من الصورة، على غرار الطريقة التي طبقت بها Google في الأصل المحولات على النص.
تعمل الرموز المميزة كجسر بين البيانات البشرية والذكاء الاصطناعي في عدد لا يحصى من التطبيقات.
يوضح مقتطف الشفرة التالي كيفية عمل ultralytics تستخدم الحزمة رموز نصية للتوجيه
اكتشاف الأجسام. في حين أن أحدث
يولو26 يوصى باستخدامه للاستدلال عالي السرعة والثابت الفئة،
تسمح بنية YOLO للمستخدمين بشكل فريد بتعريف الفئات كرموز نصية في وقت التشغيل.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
فهم الرموز أمر أساسي للتنقل في مجال الذكاء الاصطناعي التوليدي والتحليلات المتقدمة. سواء كان ذلك لتمكين روبوت الدردشة من التحدث بطلاقة أو لمساعدة نظام الرؤية على التمييز بين فئات الكائنات الدقيقة، تظل الرموز العملة الأساسية للذكاء الآلي المستخدمة في أطر عمل مثل PyTorch و TensorFlow.