مسرد المصطلحات

الترميز

اكتشف قوة الترميز في البرمجة اللغوية العصبية والتعلم الآلي! تعلّم كيف أن تقسيم النص إلى رموز يعزز مهام الذكاء الاصطناعي مثل تحليل المشاعر وتوليد النصوص.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

الترميز هو خطوة أساسية للمعالجة المسبقة في الذكاء الاصطناعي (AI) والتعلم الآلي (ML)، وهو أمر حيوي بشكل خاص في معالجة اللغات الطبيعية (NLP). وهي تنطوي على تقسيم تسلسلات النصوص أو البيانات الأخرى إلى وحدات أصغر يمكن التحكم فيها تسمى الرموز. تعمل هذه الرموز بمثابة اللبنات الأساسية التي تستخدمها الخوارزميات لفهم المعلومات ومعالجتها، وتحويل المدخلات الأولية مثل الجمل أو الفقرات إلى تنسيق مناسب للتحليل بواسطة نماذج التعلم الآلي. هذه العملية ضرورية لأن أجهزة الكمبيوتر لا تفهم النص بنفس الطريقة التي يفهم بها البشر؛ فهي تحتاج إلى بيانات منظمة في أجزاء منفصلة.

كيف يعمل الترميز

الفكرة الأساسية وراء الترميز هي التجزئة. بالنسبة للبيانات النصية، يعني هذا عادةً تقسيم الجمل إلى كلمات أو كلمات فرعية أو حتى أحرف فردية بناءً على قواعد محددة مسبقًا أو أنماط مكتسبة. على سبيل المثال، قد يتم ترميز جملةUltralytics YOLO11 قوي" إلى كلمات فردية: ["Ultralytics", "YOLO11", "is", "powerful"]. تعتمد الطريقة المحددة المختارة بشكل كبير على المهمة وبنية النموذج المستخدم.

تتضمن التقنيات الشائعة تقسيم النص بناءً على المسافات البيضاء وعلامات الترقيم. ومع ذلك، غالبًا ما تكون الأساليب الأكثر تقدمًا ضرورية، خاصةً للتعامل مع المفردات الكبيرة أو الكلمات التي لم تتم رؤيتها أثناء التدريب. تقوم تقنيات مثل ترميز أزواج البايتات (BPE) أو WordPiece بتقسيم الكلمات إلى وحدات كلمات فرعية أصغر. يتم استخدام هذه التقنيات بشكل متكرر في نماذج اللغات الكبيرة (LLMs) مثل BERT و GPT-4 لإدارة حجم المفردات بفعالية والتعامل مع الكلمات غير المعروفة بأمان. يمكن أن يؤثر اختيار استراتيجية الترميز بشكل كبير على أداء النموذج والكفاءة الحسابية.

الملاءمة والتطبيقات الواقعية

يعد الترميز أمرًا بالغ الأهمية لأن معظم نماذج التعلم الآلي، وخاصةً بنيات التعلم العميق، تتطلب مدخلات رقمية بدلاً من النص الخام. من خلال تحويل النص إلى رموز منفصلة، يمكننا بعد ذلك تحويل هذه الرموز إلى تمثيلات رقمية، مثل التضمينات. تلتقط هذه المتجهات العددية المعنى الدلالي والعلاقات، مما يسمح للنماذج المبنية باستخدام أطر مثل PyTorch أو TensorFlow بتعلم الأنماط من البيانات. تدعم هذه الخطوة التأسيسية العديد من تطبيقات الذكاء الاصطناعي:

  1. معالجة اللغات الطبيعية (NLP): يعد الترميز أمرًا أساسيًا في جميع مهام معالجة اللغات الطبيعية تقريبًا.

    • الترجمة الآلية: تقوم خدمات مثل Google Translate بترميز الجملة المدخلة في اللغة المصدر، ومعالجة هذه الرموز باستخدام نماذج معقدة (غالبًا ما تعتمد على بنية Transformer )، ثم توليد رموز في اللغة الهدف، والتي يتم تجميعها في النهاية في الجملة المترجمة.
    • تحليل المشاعر: لتحديد ما إذا كان تقييم العميل إيجابيًا أو سلبيًا، يتم أولاً ترميز النص برموز. ثم يقوم النموذج بعد ذلك بتحليل هذه الرموز (وتمثيلاتها الرقمية) لتصنيف الشعور العام. تعرف على المزيد حول تحليل المشاعر. تعتمد تقنيات مثل الضبط الفوري أيضًا على معالجة تسلسل الرموز الرمزية.
  2. الرؤية الحاسوبية (CV): بينما يرتبط هذا المفهوم تقليديًا بالبرمجة اللغوية العصبية، إلا أنه يمتد ليشمل الرؤية الحاسوبية (CV).

    • محولات الرؤية (ViT): في نماذج مثل محولات الرؤية (ViT)، يتم تقسيم الصور إلى رقع ذات حجم ثابت. يتم التعامل مع هذه الرقع على أنها "رموز بصرية" ويتم تسويتها إلى تسلسلات. ثم يتم تغذية هذه التسلسلات في شبكة محولات، والتي تستخدم آليات مثل الانتباه الذاتي لفهم العلاقات بين أجزاء الصورة المختلفة، على غرار كيفية معالجة الرموز النصية في معالجة اللغات الطبيعية. يتيح ذلك مهام مثل تصنيف الصور واكتشاف الأجسام. وتستخدم نماذج مثل نموذج أي شيء مقطوع (SAM ) أيضًا مفاهيم شبيهة بالرموز لتجزئة الصور.
    • النماذج متعددة الوسائط: تعمل نماذج مثل CLIP و YOLO على الربط بين الرؤية واللغة من خلال معالجة كل من الرموز النصية والرموز المرئية (أو ميزات الصورة) لأداء مهام مثل اكتشاف الأجسام التي لا تُطلق عليها لقطات استنادًا إلى أوصاف النص.

الترميز مقابل الرمز المميز

من المهم التمييز بين "الترميز" و"الرمز المميز".

  • الترميز: يشير إلى عملية تقسيم البيانات إلى وحدات أصغر. إنها خطوة ما قبل المعالجة.
  • الرمز: يشير إلى نتيجة عملية الترميز - الوحدة الفردية (كلمة أو كلمة فرعية أو حرف أو رقعة صورة) التي يعالجها النموذج.

يُعد فهم الترميز أمرًا أساسيًا لفهم كيفية تفسير نماذج الذكاء الاصطناعي والتعلم من أنواع البيانات المتنوعة. غالبًا ما تتضمن إدارة مجموعات البيانات ونماذج التدريب منصات مثل Ultralytics HUB، والتي تساعد في تبسيط عمليات المعالجة المسبقة للبيانات وسير عمل تدريب النماذج، والتي غالبًا ما تتضمن بيانات رمزية ضمنيًا أو صراحةً. مع تطور الذكاء الاصطناعي، تستمر أساليب الترميز في التكيف، حيث تلعب دوراً رئيسياً في بناء نماذج أكثر تطوراً للمهام التي تتراوح من توليد النصوص إلى الفهم البصري المعقد في مجالات مثل المركبات ذاتية القيادة وتحليل الصور الطبية.

قراءة الكل