اكتشف كيف يحول التعرف على الكلام (ASR) اللغة المنطوقة إلى نص. تعرف على الشبكات العصبية وتطبيقات الذكاء الاصطناعي في العالم الحقيقي و Ultralytics متعدد الوسائط.
التعرف على الكلام، الذي يشار إليه غالبًا من الناحية التقنية باسم التعرف التلقائي على الكلام (ASR)، هو القدرة المحددة التي تمكن الكمبيوتر من التعرف على اللغة المنطوقة ومعالجتها وتحويلها إلى نص مكتوب. تعمل هذه التقنية كجسر حيوي في التفاعل بين الإنسان والكمبيوتر، مما يسمح لأنظمة الذكاء الاصطناعي (AI) بقبول الأوامر الصوتية كمدخلات بدلاً من الاعتماد فقط على لوحات المفاتيح أو شاشات اللمس. من خلال تحليل أشكال الموجات الصوتية ومقارنتها بمجموعات بيانات لغوية ضخمة، يمكن لهذه الأنظمة تفسير اللهجات المتنوعة وسرعات الكلام المختلفة والمفردات المعقدة. هذه العملية هي مكون أساسي في عمليات معالجة اللغة الطبيعية (NLP) الحديثة، حيث تحول الأصوات غير المنظمة إلى بيانات منظمة يمكن قراءتها آليًا.
تطورت بنية التعرف على الكلام من مجرد مطابقة القوالب البسيطة إلى خطوط إنتاج متطورة مدعومة بالتعلم العميق (DL). تتبع العملية بشكل عام سلسلة من الخطوات الحاسمة. أولاً، يتم التقاط الصوت التناظري الخام وتحويله إلى صيغة رقمية. ثم يقوم النظام باستخراج الميزات لتصفية ضوضاء الخلفية وعزل الخصائص الصوتية، وغالباً ما يتم تصور الصوت على شكل مخطط طيفي لرسم خريطة لكثافة الترددات بمرور الوقت.
بمجرد عزل الميزات الصوتية، يتم استخدام نموذج صوتي. هذا النموذج، الذي غالبًا ما يتم إنشاؤه باستخدام شبكة عصبية (NN) مثل شبكة عصبية متكررة (RNN) أو محول حديث، يقوم بتعيين الإشارات الصوتية إلى الصوتيات — الوحدات الأساسية للصوت. أخيرًا، يقوم نموذج لغوي بتحليل تسلسل الفونيمات لتوقع الكلمات والجمل الأكثر احتمالًا. هذه الخطوة مهمة للغاية للتمييز بين الكلمات المتجانسة (مثل "to" و"two" و"too") بناءً على السياق. يستخدم المطورون أطر عمل مثل PyTorch لتدريب هذه النماذج كثيفة البيانات.
أصبح التعرف على الكلام الآن شائعًا في كل مكان، مما يعزز الكفاءة وإمكانية الوصول في العديد من القطاعات.
على الرغم من استخدامه بشكل غير رسمي في كثير من الأحيان ليعني الشيء نفسه، من المهم التمييز بين التعرف على الكلام والمفاهيم ذات الصلة في قاموس مصطلحات الذكاء الاصطناعي.
الحدود التالية للأنظمة الذكية هي التعلم متعدد الوسائط، الذي يجمع بين البيانات السمعية والمرئية. على سبيل المثال، قد يستخدم روبوت الخدمة YOLO26 للكشف عن الأشياء في الوقت الفعلي لتحديد موقع مستخدم معين في غرفة، مع استخدام التعرف على الكلام في نفس الوقت لفهم أمر مثل "أحضر لي زجاجة الماء ". يؤدي هذا التكامل إلى إنشاء عوامل ذكاء اصطناعي شاملة قادرة على الرؤية والسمع. تسهل Ultralytics إدارة هذه مجموعات البيانات المعقدة وتدريب نماذج قوية لمثل هذه التطبيقات متعددة الوسائط.
يوضّح مثال Python التالي كيفية استخدام الأداة SpeechRecognition مكتبة، أداة تغليف شائعة
، لنسخ ملف صوتي.
import speech_recognition as sr
# Initialize the recognizer class
recognizer = sr.Recognizer()
# Load an audio file (supports WAV, AIFF, FLAC)
# Ideally, this audio file contains clear, spoken English
with sr.AudioFile("user_command.wav") as source:
audio_data = recognizer.record(source) # Read the entire audio file
try:
# Transcribe the audio using Google's public speech recognition API
text = recognizer.recognize_google(audio_data)
print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
print("System could not understand the audio")
عادةً ما يتم تقييم أداء النظام باستخدام مقياس معدل الأخطاء الكلمية (WER) ، حيث تشير النتيجة الأقل إلى دقة أعلى. لمزيد من المعلومات حول كيفية عمل هذه التقنيات جنبًا إلى جنب مع نماذج الرؤية، اطلع على دليلنا حول ربط معالجة اللغة الطبيعية بالرؤية الحاسوبية.