مسرد المصطلحات

تحويل الكلام إلى نص

اكتشف كيف تقوم تقنية تحويل الكلام إلى نص بتحويل اللغة المنطوقة إلى نص باستخدام الذكاء الاصطناعي، مما يتيح التفاعل الصوتي والنسخ وأدوات إمكانية الوصول.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تحويل الكلام إلى نص (STT)، والمعروف أيضًا على نطاق واسع باسم التعرف التلقائي على الكلام (ASR)، هي تقنية تقوم بتحويل اللغة المنطوقة إلى نص مكتوب. تعمل هذه التقنية على سد الفجوة بين الكلام البشري وتنسيقات النصوص المقروءة آلياً، وتشكل عنصراً حاسماً في العديد من تطبيقات الذكاء الاصطناعي (AI) والتعلم الآلي (ML) الحديثة. تُمكِّن تقنية نقل الصوت والتكنولوجيا الأجهزة والبرمجيات من فهم الأوامر الصوتية والاستجابة لها، ونسخ المحتوى الصوتي، وتسهيل التفاعل بين الإنسان والحاسوب من خلال الصوت. تتضمن التكنولوجيا الأساسية عادةً نماذج معقدة مدربة على كميات هائلة من البيانات الصوتية(البيانات الضخمة) لتعيين أصوات الكلام بدقة إلى تمثيلات النص المقابل لها.

كيفية عمل تحويل الكلام إلى نص

تتضمن عملية تحويل الكلام إلى نص بشكل عام مرحلتين رئيسيتين: النمذجة الصوتية والنمذجة اللغوية.

  1. النمذجة الصوتية: تركز هذه المرحلة على تحويل الإشارة الصوتية المُدخلة إلى سلسلة من الوحدات الصوتية، وغالبًا ما تكون فونيمات (الوحدات الأساسية للصوت في اللغة). يتم تدريب نماذج التعلّم العميق (DL) ، خاصةً الشبكات العصبية (NN) مثل الشبكات العصبية المتكررة (RNNs) والمحولات، على التعرف على الأنماط في شكل الموجة الصوتية المقابلة لهذه الوحدات الصوتية. يمكنك العثور على مزيد من التفاصيل حول تقنيات النمذجة الصوتية على الإنترنت.
  2. نمذجة اللغة: بمجرد أن ينتج النموذج الصوتي تمثيلاً صوتيًا، يتولى نموذج اللغة المهمة. حيث يقوم بتحليل تسلسل الوحدات الصوتية لتحديد التسلسل الأكثر احتمالاً للكلمات، مع الأخذ في الاعتبار قواعد اللغة وبناء الجملة وأنماط استخدام الكلمات الشائعة داخل لغة معينة. يساعد ذلك في تصحيح الغموض والأخطاء من النموذج الصوتي، مما ينتج عنه مخرجات نصية متماسكة. استكشف المزيد حول مناهج النمذجة اللغوية.

وغالبًا ما تُقاس دقة أنظمة STT باستخدام مقاييس مثل معدل الخطأ في الكلمات (WER)، الذي يقيس الاختلافات بين النص الناتج عن النظام والنسخ المرجعي.

التطبيقات الواقعية

تعمل تقنية تحويل الكلام إلى نص على تشغيل مجموعة كبيرة من التطبيقات في مختلف المجالات:

  • المساعدون الافتراضيون: تمكين التفاعل الصوتي مع أجهزة مثل Amazon Alexa Google Assistant لمهام مثل إعداد التذكيرات أو تشغيل الموسيقى أو الإجابة عن الأسئلة.
  • خدمات النسخ: تحويل الصوت تلقائيًا من الاجتماعات أو المقابلات أو المحاضرات أو محتوى الوسائط إلى نص باستخدام خدمات مثل Otter.ai أو Rev.
  • أنظمة التحكم الصوتي: السماح بتشغيل البرامج والمركبات(الذكاء الاصطناعي في السيارات ذاتية القيادة) والأجهزة المنزلية الذكية بدون استخدام اليدين.
  • أدوات إمكانية الوصول: مساعدة الأفراد الذين يعانون من إعاقات سمعية أو إعاقات جسدية من خلال توفير تعليقات في الوقت الفعلي أو تمكين إدخال النص الصوتي. تسلط موارد مثل مبادرة W3C لإمكانية الوصول إلى الويب (WAI ) الضوء على دور هذه التقنيات.
  • خدمة العملاء: تحليل تسجيلات مركز الاتصال لضمان الجودة، وتحليل المشاعر، واستخراج المعلومات الأساسية.

المفاهيم ذات الصلة

من المهم التمييز بين STT والمصطلحات المشابهة:

  • تحويل النص إلى كلام (TTS): هذه هي العملية العكسية لتحويل النص المكتوب إلى مخرجات صوتية منطوقة.
  • التعرف على الكلام: غالبًا ما يتم استخدامه بالتبادل مع STT/ASR، ولكن يمكن أن يشمل أحيانًا مهام أوسع مثل التعرف على المتحدث أو التعرف على المشاعر من الصوت. تركز STT على وجه التحديد على نسخ محتوى الكلام.
  • معالجة اللغات الطبيعية (NLP): غالبًا ما تكون STT خطوة أولية لمهام معالجة اللغات الطبيعية. وبمجرد تحويل الكلام إلى نص، يمكن تطبيق تقنيات البرمجة اللغوية العصبية لفهم المعنى أو استخراج الكيانات أو إجراء الترجمة.

تحويل الكلام إلى نص و Ultralytics

في حين أن Ultralytics تركز في المقام الأول على الرؤية الحاسوبية (CV) مع Ultralytics YOLO لمهام مثل الكشف عن الكائنات وتقسيم الصور، يمكن أن تكمل نماذج تحويل الكلام إلى نص تطبيقات الذكاء الاصطناعي المرئية. على سبيل المثال، في نظام أمني ذكي، يمكن أن تقوم تقنية تحويل الكلام إلى نص بتحليل التهديدات المنطوقة التي تلتقطها الميكروفونات، وتعمل جنباً إلى جنب مع اكتشاف كائنات YOLO لتوفير فهم شامل للحدث. توفر منصة Ultralytics HUB منصة لإدارة نماذج الذكاء الاصطناعي ونشرها، ومع تحرك الذكاء الاصطناعي نحو التعلم متعدد الوسائط، سيصبح دمج STT مع نماذج الرؤية ذا أهمية متزايدة لإنشاء أنظمة ذكاء اصطناعي قوية، ربما كجزء من سير عمل مشروع رؤية حاسوبية أكبر. وقد أدت مجموعات الأدوات مفتوحة المصدر مثل Kaldi ومشاريع مثل Mozilla DeepSpeech إلى تقدم كبير في مجال ASR.

قراءة الكل