مسرد المصطلحات

التعرف على الكلام

اكتشف كيف تقوم تقنية التعرُّف على الكلام بتحويل الصوت إلى نص، وتشغيل حلول الذكاء الاصطناعي مثل المساعد الصوتي والنسخ الصوتي وغير ذلك الكثير.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعرف على الكلام، والمعروف أيضًا باسم التعرف التلقائي على الكلام (ASR) أو تحويل الكلام إلى نص، هي تقنية تمكّن الآلة أو البرنامج من تحديد الكلمات المنطوقة بصوت عالٍ وتحويلها إلى تنسيق يمكن قراءته آليًا. وهي تقع في نقطة تقاطع اللغويات وعلوم الكمبيوتر والهندسة الكهربائية، وتشكل مكونًا أساسيًا في العديد من تطبيقات الذكاء الاصطناعي (AI) والتعلم الآلي (ML).

فهم التعرف على الكلام

تعمل أنظمة التعرف على الكلام من خلال تحليل الأشكال الموجية الصوتية التي تمثل الكلام. ويتضمن ذلك عدة مراحل:

  • النمذجة الصوتية: تقوم هذه المرحلة بتحويل المدخلات الصوتية إلى تمثيلات صوتية. وتستخدم النماذج الإحصائية المدرّبة على كميات هائلة من بيانات الكلام لتحديد الفونيمات، وهي أصغر وحدات الصوت التي تميز كلمة عن أخرى. وغالبًا ما تتضمن التقنيات المتقدمة نماذج التعلم العميق مثل الشبكات العصبية المتكررة (RNNs) والمحولات لالتقاط التبعيات الزمنية في الكلام.
  • نمذجة اللغة: بمجرد أن يوفر النموذج الصوتي تسلسلًا من الصوتيات أو الكلمات المحتملة، يتدخل نموذج اللغة للتنبؤ بالتسلسل الأكثر احتمالاً للكلمات. ويستخدم نماذج إحصائية مُدرّبة على مجموعات نصية كبيرة لفهم القواعد اللغوية وبناء الجملة والسياق الدلالي، مما يضمن أن النص المتعرف عليه متماسك وصحيح نحويًا. تتميز النماذج اللغوية الكبيرة (LLMs)، مثل GPT-3 و GPT-4، بقدرات نمذجة لغوية محسّنة بشكل كبير.
  • فك التشفير: تبحث هذه المرحلة الأخيرة عن تسلسل الكلمات الأكثر احتمالاً في ضوء مخرجات النموذج الصوتي واللغوي. يتم استخدام خوارزميات متطورة للتنقل بكفاءة في مساحة البحث الواسعة وإخراج النص المكتوب.

تطبيقات التعرف على الكلام

أصبحت تقنية التعرف على الكلام جزءًا لا يتجزأ من العديد من التطبيقات في مختلف الصناعات:

  • المساعدات الصوتية: تعتمد المساعدات الصوتية الشهيرة مثل Siri من Apple وAlexa من Amazon وGoogle Assistant بشكل كبير على التعرف على الكلام لفهم أوامر المستخدم والاستجابة لها، مما يتيح التفاعل بدون استخدام اليدين مع الأجهزة والخدمات.
  • خدمات النسخ: يعمل التعرف على الكلام على تشغيل خدمات النسخ التي تقوم بتحويل التسجيلات الصوتية وتسجيلات الفيديو إلى نصوص مكتوبة. وهذا أمر لا يقدر بثمن في مجالات مثل الصحافة والتوثيق القانوني والبحث الأكاديمي، مما يوفر الوقت ويحسن إمكانية الوصول.
  • إمكانية الوصول: بالنسبة للأفراد ذوي الإعاقة، توفر خاصية التعرّف على الكلام طرق إدخال بديلة، مما يتيح لهم التفاعل مع أجهزة الكمبيوتر والأجهزة المحمولة باستخدام الأوامر الصوتية. وهذا أمر بالغ الأهمية للمستخدمين الذين يعانون من إعاقات حركية أو إعاقات بصرية.
  • خدمة العملاء: تستخدم العديد من مراكز الاتصال ومنصات خدمة العملاء أنظمة التعرف على الكلام لأنظمة الاستجابة الصوتية التفاعلية (IVR) ولتحليل تفاعلات العملاء، وتحسين الكفاءة وفهم مشاعر العملاء.
  • صناعة السيارات: تستخدم أنظمة التحكّم الصوتي داخل السيارة خاصية التعرّف على الكلام للسماح للسائقين بإجراء المكالمات والتنقل والتحكم في تشغيل الوسائط دون رفع أيديهم عن عجلة القيادة، مما يعزز السلامة والراحة.
  • الرعاية الصحية: يتم استخدام التعرف على الكلام بشكل متزايد في مجال الرعاية الصحية للنسخ الطبي، وإدخال البيانات الصوتية في السجلات الصحية الإلكترونية (EHRs)، وحتى في أدوات التشخيص من خلال تحليل أنماط الكلام. يمكن تحسين تحليل الصور الطبية وإعداد التقارير الطبية من خلال الإدخال الصوتي لتسريع سير العمل.

التعرف على الكلام والمفاهيم ذات الصلة

غالباً ما يتم استخدام التعرف على الكلام بالاقتران مع تقنيات الذكاء الاصطناعي وتعلم الآلة الأخرى:

  • معالجة اللغات الطبيعية (NLP): التعرف على الكلام هو مجموعة فرعية من البرمجة اللغوية العصبية. في حين أن التعرف على الكلام يحول الكلمات المنطوقة إلى نص، فإن معالجة اللغة الطبيعية (NLP) تتعامل مع تمكين أجهزة الكمبيوتر من فهم وتفسير وتوليد اللغة البشرية. وبمجرد التعرف على الكلام وتحويله إلى نص، تُستخدم تقنيات البرمجة اللغوية العصبية في مهام مثل تحليل المشاعر والتعرف على النوايا والإجابة على الأسئلة.
  • تحويل النص إلى كلام (TTS): غالبًا ما تقترن تقنية تحويل النص إلى كلام (TTS ) مع تقنية التعرف على الكلام، حيث تقوم بالعملية العكسية بتحويل النص المكتوب إلى لغة منطوقة. يسمح هذا المزيج بالتفاعل الصوتي الكامل مع الآلات.

مع استمرار تقدم الذكاء الاصطناعي والتعلم الآلي، من المتوقع أن يصبح التعرف على الكلام أكثر دقة وقوة واندماجاً بسلاسة في حياتنا اليومية، مما سيغير طريقة تفاعلنا مع التكنولوجيا.

قراءة الكل