Глоссарий

Распознавание речи

Узнай, как технология распознавания речи превращает звук в текст, обеспечивая работу таких ИИ-решений, как голосовые помощники, транскрипция и многое другое.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Распознавание речи, часто называемое автоматическим распознаванием речи (ASR) или преобразованием речи в текст, - это технология в рамках искусственного интеллекта (ИИ) и вычислительной лингвистики, которая позволяет компьютерам понимать и транскрибировать человеческую устную речь в письменный текст. Она служит важнейшим интерфейсом для взаимодействия человека и компьютера, позволяя устройствам и приложениям реагировать на голосовые команды и обрабатывать аудиоввод. Эта область в значительной степени использует принципы машинного обучения (ML), особенно глубокого обучения (DL), чтобы достичь высокого уровня точности и справиться с вариациями речевых моделей, акцентов и окружения.

Как работает распознавание речи

Процесс преобразования речи в текст обычно включает в себя несколько основных этапов. Сначала звук захватывается с помощью микрофона и преобразуется в цифровой сигнал. Этот необработанный звук подвергается предварительной обработке, такой как шумоподавление и нормализация. Затем из сигнала извлекаются акустические признаки, представляющие такие характеристики, как частота и энергия во времени. Затем эти признаки обрабатываются акустической моделью, которая часто представляет собой сложную нейронную сеть (НС). К распространенным архитектурам относятся рекуррентные нейронные сети (РНС), сети с долговременной кратковременной памятью (LSTM), а в последнее время - трансформаторные модели, известные своей эффективностью в задачах моделирования последовательности с помощью таких механизмов, как самовнушение. Акустическая модель сопоставляет признаки с основными единицами звука, такими как фонемы. Наконец, языковая модель, обученная на обширных текстовых корпорациях (вроде тех, что можно найти в инициативах Big Data ), анализирует последовательности этих фонетических единиц, чтобы определить наиболее вероятные слова и предложения, учитывая грамматику и контекст. Фреймворки вроде Kaldi и наборы инструментов от таких платформ, как Hugging Face предоставляют ресурсы для создания ASR-систем.

Основные отличия

Важно отличать распознавание речи от родственных, но разных технологий:

  • Преобразование текста в речь (Text-to-Speech, TTS): Эта технология выполняет противоположную функцию ASR, преобразуя письменный текст в устный аудиовыход. Вспомни о программах чтения с экрана или голосах виртуальных помощников.
  • Обработка естественного языка (Natural Language Processing, NLP): Будучи тесно связанными между собой, NLP фокусируется на понимании и интерпретации языка (как текста, так и транскрибированной речи) для извлечения смысла, намерений, настроения или выполнения таких задач, как перевод или обобщение. ASR обеспечивает текстовый ввод, на котором часто работают системы НЛП. Языковое моделирование - основной компонент как ASR, так и NLP.
  • Распознавание говорящего: Это включает в себя определение того, кто говорит, а не того, что говорят. Это используется для биометрической аутентификации или дикторской диаризации (определение разных говорящих в разговоре).

Применение в реальном мире

Технология распознавания речи интегрирована во множество приложений в различных областях:

  • Виртуальные ассистенты: Такие системы, как Amazon Alexa, Google Assistant и Siri от Apple, во многом полагаются на ASR для понимания команд и запросов пользователя.
  • Услуги транскрипции: Такие инструменты, как Otter.ai, автоматически транскрибируют встречи, интервью и лекции, делая аудиоконтент доступным и удобным для поиска.
  • Системы голосового управления: Широко используются в автономных и современных автомобилях для управления навигацией, развлечениями и климатическими настройками без помощи рук(ИИ в самодвижущихся машинах).
  • Программное обеспечение для диктовки: Позволяет профессионалам в таких областях, как здравоохранение(AI in Healthcare) и юриспруденция, надиктовывать заметки и отчеты прямо в цифровые документы.
  • Инструменты доступности: Оказывают существенную помощь людям с ограниченными возможностями, позволяя взаимодействовать с технологиями с помощью голоса. Такие проекты, как Common Voice от Mozilla, направлены на улучшение ASR для разных голосов.
  • Обслуживание клиентов: Задействуй системы интерактивного голосового ответа (IVR) и голосовых ботов в колл-центрах для автоматизированной поддержки.

Проблемы и будущие направления

Несмотря на заметный прогресс, системы ASR все еще сталкиваются с проблемами. Точная транскрипция речи в шумном окружении, работа с различными акцентами и диалектами, устранение дублирования дикторов в разговоре, а также понимание нюансов смысла или анализ настроения остаются активными областями исследований. Будущие достижения направлены на повышение надежности с помощью передовых методов глубокого обучения, изучение мультимодальных моделей, объединяющих аудио и визуальную информацию (например, чтение по губам, относящееся к компьютерному зрению), и использование таких методов, как самоконтроль, для обучения моделей на огромных наборах данных без меток. В то время как Ultralytics фокусируется в первую очередь на моделях ИИ для зрения, таких как Ultralytics YOLO для таких задач, как обнаружение объектов и сегментация изображений, прогресс в смежных областях ИИ, таких как распознавание речи, вносит свой вклад в общую экосистему интеллектуальных систем. Ты можешь изучить варианты обучения и развертывания моделей зрения в документацииUltralytics и управлять проектами с помощью Ultralytics HUB.

Читать полностью