نماذج التسلسل إلى تسلسل (Seq2Seq) هي فئة من نماذج التعلم العميق المصممة لتحويل تسلسل المدخلات إلى تسلسل المخرجات، حيث يمكن أن تختلف أطوال تسلسلات المدخلات والمخرجات. هذه القدرة تجعلها قوية بشكل استثنائي لمجموعة واسعة من المهام، لا سيما في معالجة اللغات الطبيعية (NLP)، ولكنها قابلة للتطبيق أيضًا في مجالات أخرى مثل التعرف على الكلام وحتى بعض مشاكل الرؤية الحاسوبية التي تتضمن بيانات متسلسلة. وقد أحدثت الفكرة الأساسية، التي تم تقديمها في أوراق بحثية مثل"تعلم التسلسل إلى التسلسل باستخدام الشبكات العصبية" من قبل سوتسكيفر وآخرين و"تعلم تمثيلات العبارات باستخدام أداة التشفير-فك التشفير RNN للترجمة الآلية الإحصائية" من قبل تشو وآخرين، ثورة في كيفية تعامل الآلات مع التحويلات المتغيرة التسلسلية المتغيرة الطول.
بنية أداة التشفير-فك التشفير
إن البنية الأساسية لمعظم نماذج Seq2Seq هي بنية التشفير وفك التشفير:
- أداة التشفير: يقوم هذا الجزء بمعالجة تسلسل المدخلات بالكامل (على سبيل المثال، جملة باللغة الفرنسية) خطوة بخطوة، وعادةً ما يستخدم شبكة عصبية متكررة (RNN) مثل LSTM (الذاكرة طويلة المدى القصيرة) أو GRU (وحدة متكررة ذات بوابات). ويتمثل هدفها في ضغط المعلومات من تسلسل المدخلات في تمثيل داخلي ذي حجم ثابت، وغالبًا ما يُطلق عليه "متجه السياق" أو "متجه الفكر". يهدف هذا المتجه إلى التقاط جوهر أو معنى تسلسل المدخلات.
- أداة فك التشفير: يأخذ هذا الجزء متجه السياق الذي تم إنشاؤه بواسطة أداة التشفير وينتج تسلسل المخرجات خطوة بخطوة (على سبيل المثال، الجملة المترجمة English). كما أنه عادةً ما يكون عبارة عن شبكة شبكية شبكية عشوائية (RNN) تقوم بتوليد عنصر واحد (مثل كلمة أو حرف) في كل خطوة زمنية، مشروطة بمتجه السياق والعناصر التي تم إنشاؤها في الخطوات السابقة.
ومن التحسينات المهمة التي أُدخلت على هذا الهيكل الأساسي إدخال آلية الانتباه، والتي تم تفصيلها في ورقة باهداناو وآخرون"الترجمة الآلية العصبية الآلية عن طريق التعلم المشترك للمحاذاة والترجمة". تسمح آلية الانتباه لوحدة فك الترميز بالتركيز بشكل انتقائي على أجزاء مختلفة من تسلسل المدخلات عند توليد كل عنصر من عناصر تسلسل المخرجات، بدلاً من الاعتماد فقط على متجه سياق واحد ثابت الحجم. أدى ذلك إلى تحسين الأداء بشكل كبير، خاصةً بالنسبة للتسلسلات الطويلة. مهّد هذا المفهوم الطريق لبنى مثل المحوّل، الذي يعتمد كليًا على آليات الانتباه، مستغنيًا عن التكرار كليًا وأصبح أساسًا لنماذج مثل BERT و GPT.
التطبيقات الواقعية
تتفوق نماذج Seq2Seq في المهام التي تكون فيها المدخلات والمخرجات متسلسلة ولكن قد لا يكون لها تطابق واحد لواحد في الطول أو البنية. تشمل التطبيقات الرئيسية ما يلي:
- الترجمة الآلية: ترجمة النص من لغة إلى أخرى (على سبيل المثال، تشغيل خدمات مثل Google Translate أو DeepL Translator). كان هذا أحد النجاحات الرئيسية الأولى لنماذج Seq2Seq.
- تلخيص النص: إنشاء ملخص موجز مختصر من مستند أو مقال أطول. المدخلات هي تسلسل النص الطويل، والمخرجات هي تسلسل الملخص الأقصر.
- الذكاء الاصطناعي التحادثي/روبوتات المحادثة: توليد الردود في نظام حوار. المدخلات هي استفسار أو بيان المستخدم، والمخرجات هي رد روبوت المحادثة. تستخدم منصات مثل Google Dialogflow مثل هذه التقنيات.
- التعرّف على الكلام: تحويل الصوت المنطوق (سلسلة من الميزات الصوتية) إلى نص (سلسلة من الكلمات).
- شرح الصور: توليد وصف نصي (تسلسل الإخراج) لصورة (تسلسل الإدخال، وغالبًا ما يتم تمثيله كملامح مستخرجة بواسطة شبكة CNN). على الرغم من أن المدخلات ليست متسلسلة بشكل صارم، إلا أن عملية توليد المخرجات تناسب نموذج Seq2Seq.
- توليد التعليمات البرمجية: توليد كود البرمجة بناءً على أوصاف اللغة الطبيعية.
المفاهيم والاعتبارات الرئيسية
يتضمن بناء نماذج Seq2Seq وتدريبها عدة مفاهيم مهمة:
- التضمينات: عادةً ما يتم تحويل الكلمات أو الرموز المدخلة إلى تمثيلات متجهة كثيفة قبل إدخالها في أداة التشفير.
- الانتقاء الخلفي عبر الزمن (BPTT): الطريقة القياسية لتدريب شبكات RNNs عن طريق فتح الشبكة على طول التسلسل.
- التعامل مع التسلسلات الطويلة: تعاني الشبكات الشبكية الشبكية العصبية العصبية العصبية الأساسية من التبعيات الطويلة بسبب مشاكل مثل مشكلة التدرج المتلاشي. تم تصميم LSTMs و GRUs للتخفيف من هذه المشكلة، وتعمل آليات الانتباه على تحسين الأداء في التسلسلات الطويلة. تتفوق نماذج المحولات هنا.
- مقاييس التقييم: اعتمادًا على المهمة، يتم استخدام مقاييس مثل BLEU (للترجمة) أو ROUGE (للتلخيص) أو الدقة/النتيجة 1(لتوسيم التسلسل). توفرUltralytics إرشادات حول مقاييس الأداء.
Seq2Seq مقابل البنى الأخرى
في حين أن نماذج Seq2Seq القائمة على الشبكات الشبكية العصبية العصبية القابلة للتشغيل (RNNs) كانت رائدة، فقد تطور المجال:
- شبكات RNN القياسية: عادةً ما تقوم بتعيين التسلسلات إلى تسلسلات من نفس الطول أو تصنيف تسلسلات كاملة، وتفتقر إلى مرونة بنية المشفر-مفك التشفير لتغير أطوال المخرجات.
- المحولات: تهيمن الآن على العديد من مهام البرمجة اللغوية العصبية التي كانت تتعامل معها نماذج Seq2Seq القائمة على شبكة الشبكات العصبية العصبية العصبية. فهي تستخدم الانتباه الذاتي والترميزات الموضعية بدلاً من التكرار، مما يسمح بالتوازي بشكل أفضل والتقاط التبعيات بعيدة المدى بشكل أكثر فعالية. تدمج نماذج مثل RT-DETR من بايدو، المدعومة من قبل Ultralytics مكونات المحولات لاكتشاف الكائنات.
- CNNs: تُستخدم بشكل أساسي للبيانات الشبيهة بالشبكة مثل الصور (على سبيل المثال، في Ultralytics YOLO للكشف والتجزئة)، على الرغم من تكييفها أحيانًا لمهام التسلسل.
في حين أن Seq2Seq غالبًا ما يشير إلى بنية فك التشفير القائمة على شبكة الشبك الشبكي الشبكي الشبكي RNN، فإن المبدأ العام لتعيين تسلسلات المدخلات إلى تسلسلات المخرجات باستخدام تمثيل وسيط يظل أساسيًا للعديد من البنى الحديثة، بما في ذلك المحولات المستخدمة في الترجمة والتلخيص. أدوات مثل PyTorch و TensorFlow لبنات بناء لتنفيذ كل من نماذج التسلسل التقليدية والحديثة. يمكن تبسيط إدارة عملية التدريب باستخدام منصات مثل Ultralytics HUB.