Узнайте, как система распознавания речи (ASR) преобразует устную речь в текст. Познакомьтесь с нейронными сетями, реальными приложениями искусственного интеллекта и мультимодальной Ultralytics .
Распознавание речи, часто называемое в техническом плане автоматическим распознаванием речи (ASR), представляет собой специальную функцию, которая позволяет компьютеру идентифицировать, обрабатывать и транскрибировать устную речь в письменный текст. Эта технология служит важным мостом в взаимодействии человека и компьютера, позволяя системам искусственного интеллекта (ИИ) принимать голосовые команды в качестве ввода, а не полагаться исключительно на клавиатуры или сенсорные экраны. Анализируя звуковые волны и сопоставляя их с обширными лингвистическими наборами данных, эти системы могут интерпретировать различные акценты, разную скорость речи и сложный словарный запас. Этот процесс является основополагающим компонентом современных рабочих процессов обработки естественного языка (NLP) , преобразуя неструктурированный звук в структурированные данные, понятные для машины.
Архитектура распознавания речи эволюционировала от простого сопоставления шаблонов до сложных конвейеров, основанных на глубоком обучении (DL). Процесс обычно состоит из последовательности важных этапов. Сначала происходит захват и оцифровка необработанного аналогового аудиосигнала. Затем система выполняет извлечение признаков для фильтрации фоновых шумов и выделения фонетических характеристик, часто визуализируя аудио в виде спектрограммы для отображения интенсивности частот во времени.
После выделения аудиохарактеристик в действие вступает акустическая модель. Эта модель, часто построенная с использованием нейронной сети (NN), такой как рекуррентная нейронная сеть (RNN) или современный трансформер, сопоставляет акустические сигналы с фонемами — основными единицами звука. Наконец, языковая модель анализирует последовательность фонем для прогнозирования наиболее вероятных слов и предложений. Этот шаг имеет решающее значение для различения омофонов (таких как «to», «two» и «too») на основе контекста. Разработчики используют такие фреймворки, как PyTorch для обучения этих моделей, требующих большого объема данных.
Распознавание речи сейчас повсеместно используется, повышая эффективность и доступность во многих секторах.
Хотя эти термины часто используются в разговорной речи для обозначения одного и того же, важно различать распознавание речи и связанные с ним понятия в глоссарии ИИ.
Следующим рубежом интеллектуальных систем является мультимодальное обучение, которое сочетает в себе аудио- и визуальные данные. Например, сервисный робот может использовать YOLO26 для обнаружения объектов в реальном времени , чтобы найти конкретного пользователя в комнате, одновременно используя распознавание речи для понимания такой команды, как «принеси мне бутылку с водой ». Эта конвергенция создает комплексные ИИ-агенты, способные как видеть, так и слышать. Ultralytics облегчает управление этими сложными наборами данных и обучение надежных моделей для таких мультимодальных приложений.
Следующий пример на Python демонстрирует, как использовать SpeechRecognition библиотека, популярный инструмент-обертка
для транскрибирования аудиофайлов.
import speech_recognition as sr
# Initialize the recognizer class
recognizer = sr.Recognizer()
# Load an audio file (supports WAV, AIFF, FLAC)
# Ideally, this audio file contains clear, spoken English
with sr.AudioFile("user_command.wav") as source:
audio_data = recognizer.record(source) # Read the entire audio file
try:
# Transcribe the audio using Google's public speech recognition API
text = recognizer.recognize_google(audio_data)
print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
print("System could not understand the audio")
Производительность системы обычно оценивается с помощью показателя Word Error Rate (WER), где более низкий балл означает более высокую точность. Для получения более подробной информации о том, как эти технологии функционируют вместе с моделями зрения, ознакомьтесь с нашим руководством по соединению NLP и компьютерного зрения.