الترميز هو خطوة أساسية في معالجة اللغة الطبيعية (NLP) والتعلم الآلي (ML) التي تتضمن تقسيم النص إلى وحدات أصغر، تُعرف باسم الرموز. يمكن أن تكون هذه الرموز كلمات أو كلمات فرعية أو أحرف أو رموز، اعتمادًا على المتطلبات المحددة للمهمة والنموذج المستخدم. من خلال تحويل النص الخام إلى تنسيق رقمي يمكن لنماذج التعلم الآلي فهمه، يعد الترميز أمرًا بالغ الأهمية لتطبيقات الذكاء الاصطناعي المختلفة.
التعريف
الترميز هو عملية تجزئة سلسلة نصية إلى رموز فردية. فكر في الأمر على أنه تقطيع جملة إلى أجزاء. هذه الأجزاء، أو الرموز، تصبح الوحدات الأساسية التي يمكن للكمبيوتر معالجتها. على سبيل المثال، يمكن ترميز الجملة "Ultralytics YOLO سريع." إلى ["Ultralytics"، "YOLO"، " "، " هو "، " سريع "، "."]. يمكن للطريقة التي يتم بها ترميز النص أن تؤثر بشكل كبير على مدى جودة فهم النموذج للغة ومعالجتها. توجد استراتيجيات ترميز مختلفة، لكل منها نقاط قوتها وضعفها. تتضمن الطرق الشائعة ما يلي:
- ترميز الكلمات: هذا هو النهج الأكثر وضوحًا، حيث يتم تقسيم النص إلى كلمات منفردة، وعادةً ما يعتمد على المسافات وعلامات الترقيم. على سبيل المثال، "دعونا نتعلم الذكاء الاصطناعي!" تصبح ["دعونا"، "s"، "نتعلم"، "الذكاء الاصطناعي"، "!"].
- ترميز الأحرف: هنا، يعتبر كل حرف رمز رمزي. نفس الجملة، "دعنا نتعلم الذكاء الاصطناعي!"، سيتم ترميزها إلى ["L"، "e"، "t"، "'"، "s"، ""، ""، "l"، "e"، "a"، "r"، "n"، ""، ""، "A"، "I"، "!"]. هذه الطريقة مفيدة للغات التي لا يتم فيها الفصل بين الكلمات بمسافات واضحة أو عند التعامل مع كلمات خارج المفردات.
- ترميز الكلمات الفرعية: تحقق هذه الطريقة توازناً بين ترميز الكلمات والأحرف. فهي تقسم الكلمات إلى وحدات أصغر (كلمات فرعية) بناءً على تسلسل الأحرف المتكرر. على سبيل المثال، قد يتم ترميز كلمة "غير قابل للكسر" إلى ["غير"، "كسر"، "قادر"]. تعتبر هذه التقنية فعالة في التعامل مع الكلمات النادرة وتقليل حجم المفردات، وهو أمر مفيد بشكل خاص في نماذج مثل BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات) وعائلة GPT (المحولات التوليدية المدربة مسبقًا)، بما في ذلك GPT-4 و GPT-3.
الملاءمة والتطبيقات
الترميز هو شرط أساسي لجميع مهام البرمجة اللغوية العصبية تقريبًا، مما يمكّن الآلات من معالجة اللغة البشرية وفهمها. تطبيقاته واسعة النطاق وتمتد عبر مجالات مختلفة:
- تحليل المشاعر: في تحليل المشاعر، يساعد الترميز في تحليل المشاعر على تقسيم مراجعات العملاء أو منشورات وسائل التواصل الاجتماعي إلى كلمات أو عبارات فردية، والتي يتم تحليلها بعد ذلك لتحديد الشعور العام (إيجابي أو سلبي أو محايد). على سبيل المثال، عند تحليل الجملة "هذا الموقع Ultralytics HUB سهل الاستخدام بشكل لا يصدق!"، يسمح الترميز لنموذج تحليل المشاعر بالتركيز على كلمات فردية مثل "بشكل لا يصدق" و"سهل الاستخدام" لقياس المشاعر الإيجابية.
- الترجمة الآلية: الترميز أمر ضروري للترجمة الآلية. قبل ترجمة جملة ما من لغة إلى أخرى، يتم ترميز الجملة أولاً. يسمح ذلك لنموذج الترجمة بمعالجة النص كلمة بكلمة أو كلمة فرعية بكلمة فرعية، مما يسهل الترجمات الدقيقة والمراعية للسياق. على سبيل المثال، تنطوي ترجمة "كيفية تدريب نماذج Ultralytics YOLO " أولاً على ترميزها إلى كلمات أو كلمات فرعية قبل تعيين هذه الرموز إلى لغة أخرى.
- توليد النصوص: تعتمد النماذج المستخدمة لتوليد النصوص، مثل نماذج اللغات الكبيرة (LLMs)، اعتمادًا كبيرًا على الترميز. عند توليد النص، تتنبأ هذه النماذج بالرمز التالي في التسلسل. يضمن الترميز أن يتم إنشاء المخرجات من وحدات ذات معنى، سواء كانت كلمات أو كلمات فرعية، مما يؤدي إلى نص متماسك وصحيح نحويًا.
- محركات البحث واسترجاع المعلومات: تستخدم محركات البحث الترميز لفهرسة صفحات الويب ومعالجة استعلامات البحث. عندما تبحث عن "اكتشاف الكائن مع Ultralytics YOLO "، يقوم محرك البحث بترميز استعلامك إلى كلمات رئيسية ويطابق هذه الرموز مع المحتوى المفهرس لاسترداد النتائج ذات الصلة. يعمل البحث الدلالي على تحسين هذه العملية من خلال فهم معنى الرموز وسياقها.
أنواع الترميز
في حين أن المفهوم الأساسي لترميز الرموز واضح ومباشر، إلا أن هناك تقنيات مختلفة تلبي احتياجات اللغات المختلفة ومهام البرمجة اللغوية العصبية:
- ترميز المسافات البيضاء: تقوم هذه الطريقة البسيطة بتقسيم النص استنادًا إلى أحرف المسافات البيضاء (المسافات وعلامات التبويب والخطوط الجديدة). على الرغم من سهولة تنفيذها، إلا أنها قد لا تتعامل مع علامات الترقيم بفعالية ويمكن أن تواجه صعوبات مع اللغات التي لا تستخدم المسافات للفصل بين الكلمات.
- الترميز القائم على القواعد: يستخدم هذا النهج قواعد محددة مسبقًا للتعامل مع علامات الترقيم والانقباضات وغيرها من الفروق الدقيقة الخاصة باللغة. على سبيل المثال، يمكن تعيين القواعد لفصل علامات الترقيم كرموز فردية أو للتعامل مع الانقباضات مثل "لا يمكن" كرمزين: "ca" و"n't".
- الترميز الإحصائي: تستخدم تقنيات أكثر تقدمًا نماذج إحصائية مدربة على مجموعات نصية كبيرة لتحديد حدود الرموز الرمزية. هذه الأساليب، بما في ذلك خوارزميات ترميز الكلمات الفرعية مثل ترميز أزواج البايتات (BPE) و WordPiece، فعالة بشكل خاص في التعامل مع اللغات المعقدة والكلمات التي لا تحتوي على مفردات.
فوائد الترميز
يوفر الترميز العديد من المزايا الرئيسية في سياق الذكاء الاصطناعي والتعلم الآلي:
- تبسيط البيانات النصية: من خلال تجزئة النص إلى وحدات أصغر حجمًا يمكن التحكم فيها، تعمل عملية الترميز على تحويل البيانات النصية المعقدة وغير المنظمة إلى تنسيق يمكن للخوارزميات معالجته بكفاءة.
- تمكين التمثيل العددي: يمكن تحويل الرموز بسهولة إلى تمثيلات رقمية، مثل المتجهات، وهي المدخلات القياسية لنماذج التعلم الآلي. هذا التحويل ضروري للنماذج لتعلم الأنماط والعلاقات في البيانات النصية. تعمل تقنيات مثل تضمين الكلمات على تعزيز هذا التمثيل من خلال التقاط المعنى الدلالي.
- يحسن أداء النموذج: يمكن أن يؤدي الترميز الفعال إلى تحسين أداء نماذج البرمجة اللغوية العصبية بشكل كبير. يمكن أن يؤدي اختيار استراتيجية الترميز المناسبة لمهمة معينة ولغة معينة إلى تحسين الدقة والكفاءة في مهام مثل التصنيف والترجمة والتوليد.
- إدارة حجم المفردات: يساعد ترميز الكلمات الفرعية، على وجه الخصوص، في إدارة حجم المفردات. فمن خلال تقسيم الكلمات إلى وحدات كلمات فرعية، يقلل ذلك من عدد الرموز الفريدة التي يحتاج النموذج إلى تعلمها، مما يجعل النماذج أكثر كفاءة وقدرة على التعامل مع نطاق أوسع من النصوص، بما في ذلك الكلمات النادرة أو غير المرئية.
باختصار، يُعد الترميز خطوة حاسمة في المعالجة اللغوية العصبية وتعلم الآلة (ML)، حيث يمكّن الحواسيب من فهم البيانات النصية ومعالجتها. وتعتمد فعاليتها على التقنية المختارة ومدى ملاءمتها للمهمة واللغة المحددة. ويُعد فهم الترميز أمرًا أساسيًا لأي شخص يعمل مع تطبيقات الذكاء الاصطناعي القائمة على النصوص، بدءًا من تحليل المشاعر إلى نماذج اللغة المعقدة مثل Ultralytics YOLO -World، والتي يمكنها فهم المطالبات النصية لاكتشاف الأشياء.