Глоссарий

Распознавание речи

Узнайте, как система распознавания речи (ASR) преобразует устную речь в текст. Познакомьтесь с нейронными сетями, реальными приложениями искусственного интеллекта и мультимодальной Ultralytics .

Распознавание речи, часто называемое в техническом плане автоматическим распознаванием речи (ASR), представляет собой специальную функцию, которая позволяет компьютеру идентифицировать, обрабатывать и транскрибировать устную речь в письменный текст. Эта технология служит важным мостом в взаимодействии человека и компьютера, позволяя системам искусственного интеллекта (ИИ) принимать голосовые команды в качестве ввода, а не полагаться исключительно на клавиатуры или сенсорные экраны. Анализируя звуковые волны и сопоставляя их с обширными лингвистическими наборами данных, эти системы могут интерпретировать различные акценты, разную скорость речи и сложный словарный запас. Этот процесс является основополагающим компонентом современных рабочих процессов обработки естественного языка (NLP) , преобразуя неструктурированный звук в структурированные данные, понятные для машины.

Как работает распознавание речи

Архитектура распознавания речи эволюционировала от простого сопоставления шаблонов до сложных конвейеров, основанных на глубоком обучении (DL). Процесс обычно состоит из последовательности важных этапов. Сначала происходит захват и оцифровка необработанного аналогового аудиосигнала. Затем система выполняет извлечение признаков для фильтрации фоновых шумов и выделения фонетических характеристик, часто визуализируя аудио в виде спектрограммы для отображения интенсивности частот во времени.

После выделения аудиохарактеристик в действие вступает акустическая модель. Эта модель, часто построенная с использованием нейронной сети (NN), такой как рекуррентная нейронная сеть (RNN) или современный трансформер, сопоставляет акустические сигналы с фонемами — основными единицами звука. Наконец, языковая модель анализирует последовательность фонем для прогнозирования наиболее вероятных слов и предложений. Этот шаг имеет решающее значение для различения омофонов (таких как «to», «two» и «too») на основе контекста. Разработчики используют такие фреймворки, как PyTorch для обучения этих моделей, требующих большого объема данных.

Применение в реальном мире

Распознавание речи сейчас повсеместно используется, повышая эффективность и доступность во многих секторах.

Документация в сфере здравоохранения : В медицинской сфере ИИ позволяет врачам использовать специализированные инструменты от таких поставщиков, как Nuance Communications, для диктовки клинических записей непосредственно в электронные медицинские карты (EHR). Это значительно снижает административную нагрузку и повышает точность данных.
Автомобильные интерфейсы: современные автомобили оснащены системой голосового управления, позволяющей водителям управлять навигационными и развлекательными системами без использования рук. ИИ в автомобильной промышленности уделяет приоритетное внимание безопасности, сводя к минимуму визуальные отвлекающие факторы с помощью надежных голосовых интерфейсов.
Виртуальные помощники: потребительские агенты, такие как Siri от Apple, используют ASR для анализа команд для различных задач, от настройки таймеров до управления устройствами умного дома, выступая в качестве основного уровня ввода для виртуального помощника.

Различение смежных терминов

Хотя эти термины часто используются в разговорной речи для обозначения одного и того же, важно различать распознавание речи и связанные с ним понятия в глоссарии ИИ.

Преобразование речи в текст (STT): STT специфически относится к функции вывода (преобразование аудио в текст), тогда как распознавание речи охватывает более широкую технологическую методологию идентификации аудио.
Понимание естественного языка (NLU): ASR преобразует звук в текст, но по сути не «понимает» сообщение. NLU — это последующий процесс, который интерпретирует намерение, настроение и значение, стоящие за транскрибированными словами.
Преобразование текста в речь (TTS): это обратная операция, при которой система синтезирует искусственную речь, похожую на человеческую, из письменного текста.

Интеграция с компьютерным зрением

Следующим рубежом интеллектуальных систем является мультимодальное обучение, которое сочетает в себе аудио- и визуальные данные. Например, сервисный робот может использовать YOLO26 для обнаружения объектов в реальном времени , чтобы найти конкретного пользователя в комнате, одновременно используя распознавание речи для понимания такой команды, как «принеси мне бутылку с водой ». Эта конвергенция создает комплексные ИИ-агенты, способные как видеть, так и слышать. Ultralytics облегчает управление этими сложными наборами данных и обучение надежных моделей для таких мультимодальных приложений.

Следующий пример на Python демонстрирует, как использовать SpeechRecognition библиотека, популярный инструмент-обертка для транскрибирования аудиофайлов.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, AIFF, FLAC)
# Ideally, this audio file contains clear, spoken English
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe the audio using Google's public speech recognition API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio")

Производительность системы обычно оценивается с помощью показателя Word Error Rate (WER), где более низкий балл означает более высокую точность. Для получения более подробной информации о том, как эти технологии функционируют вместе с моделями зрения, ознакомьтесь с нашим руководством по соединению NLP и компьютерного зрения.

Распознавание речи

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Как работает распознавание речи

Применение в реальном мире

Различение смежных терминов

Интеграция с компьютерным зрением

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics