مسرد المصطلحات

الترميز

اكتشف قوة الترميز في البرمجة اللغوية العصبية والتعلم الآلي! تعلّم كيف أن تقسيم النص إلى رموز يعزز مهام الذكاء الاصطناعي مثل تحليل المشاعر وتوليد النصوص.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

الترميز هو خطوة أساسية للمعالجة المسبقة في الذكاء الاصطناعي (AI) والتعلم الآلي (ML)، وهو أمر حيوي بشكل خاص في معالجة اللغات الطبيعية (NLP). وهي تنطوي على تقسيم تسلسلات النصوص أو البيانات الأخرى إلى وحدات أصغر يمكن التحكم فيها تسمى الرموز. تُعد هذه الرموز بمثابة اللبنات الأساسية التي تستخدمها الخوارزميات لفهم المعلومات ومعالجتها، وتحويل المدخلات الأولية إلى تنسيق مناسب للتحليل.

كيف يعمل الترميز

الفكرة الأساسية وراء الترميز هي التجزئة. بالنسبة للبيانات النصية، يعني هذا عادةً تقسيم الجمل إلى كلمات أو كلمات فرعية أو حتى أحرف فردية بناءً على قواعد محددة مسبقًا أو أنماط مكتسبة. على سبيل المثال، قد يتم ترميز جملةUltralytics YOLOv8 قوي" إلى: ["Ultralytics", "YOLOv8", "is", "powerful"]. تعتمد الطريقة المحددة المختارة على المهمة وبنية النموذج. تتضمن الأساليب الشائعة التقسيم حسب المسافات البيضاء وعلامات الترقيم، أو استخدام أساليب أكثر تقدمًا مثل ترميز أزواج البايت (BPE) أو WordPieceالتي تُستخدم غالبًا في نماذج اللغات الكبيرة (LLMs) مثل بيرت للتعامل مع المفردات الكبيرة والكلمات غير المعروفة بفعالية.

الملاءمة والتطبيقات الواقعية

يعد الترميز أمرًا ضروريًا لأن معظم نماذج تعلّم الآلة تتطلب مدخلات رقمية. من خلال تحويل النص إلى رموز منفصلة، يمكننا بعد ذلك تعيين هذه الرموز إلى تمثيلات رقمية مثل التضمينات، مما يسمح للنماذج بتعلم الأنماط والعلاقات داخل البيانات. تدعم هذه العملية العديد من تطبيقات الذكاء الاصطناعي:

  1. الترجمة الآلية: تقوم خدمات مثل Google Translate بترميز الجمل المدخلة في اللغة المصدر إلى رموز، وتعالج هذه الرموز باستخدام شبكات عصبية معقدة (غالباً ما تكون محولات)، ثم تولد رموزاً في اللغة الهدف، والتي يتم تجميعها في النهاية في جمل. يضمن الترميز الدقيق التقاط الفروق اللغوية الدقيقة بشكل صحيح.
  2. تحليل المشاعر: ولتحديد مشاعر تقييم العميل مثل "كانت الخدمة ممتازة!"، يتم أولاً ترميز النص (["The", "service", "was", "excellent", "!"]). كل الرمز المميز ثم يتم تحليلها، باستخدام تضمينها في كثير من الأحيان، مما يسمح للنموذج بتصنيف الشعور العام على أنه إيجابي أو سلبي أو محايد. وهذا أمر بالغ الأهمية للشركات التي تقوم بتحليل آراء العملاء. معرفة المزيد عن تحليل المشاعر.
  3. نماذج لغة الرؤية: تعتمد النماذج مثل CLIP أو Ultralytics YOLO على ترميز المطالبات النصية لفهم استفسارات المستخدم لمهام مثل اكتشاف الأجسام بدون لقطة أو تجزئة الصور. ترتبط الرموز النصية بالسمات المرئية المستفادة من الصور.

الترميز في الرؤية الحاسوبية

بينما يرتبط هذا المفهوم تقليديًا بالبرمجة اللغوية العصبية، إلا أنه يمتد ليشمل الرؤية الحاسوبية (CV). في محولات الرؤية (ViT)، يتم تقسيم الصور في محولات الرؤية (ViT) إلى رقع ذات حجم ثابت، والتي يتم التعامل معها على أنها "رموز بصرية". ثم تتم معالجة هذه الرموز بشكل مماثل للرموز النصية في محولات البرمجة اللغوية العصبية (NLP)، مما يتيح للنماذج فهم التسلسلات الهرمية المكانية والسياق داخل الصور.

المزايا والأدوات

يعمل الترميز الفعال على توحيد البيانات المدخلة وتبسيط معالجة النماذج والمساعدة في إدارة حجم المفردات، خاصةً مع أساليب الكلمات الفرعية. توفر مكتبات مثل Hugging Face Tokenizers ومجموعات الأدوات مثل NLTK تطبيقات قوية. غالبًا ما تستخلص منصات مثل Ultralytics HUB تعقيدات المعالجة المسبقة للبيانات، بما في ذلك الترميز، وتبسيط سير العمل لنماذج التدريب المبنية باستخدام أطر عمل مثل PyTorch أو TensorFlow. يعد فهم الترميز أمرًا أساسيًا لبناء العديد من أنظمة الذكاء الاصطناعي الحديثة وتحسينها.

قراءة الكل