Глоссарий

Речь в текст

Узнай, как технология Speech-to-Text преобразует разговорную речь в текст с помощью искусственного интеллекта, обеспечивая голосовое взаимодействие, транскрипцию и инструменты доступности.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Speech-to-Text (STT), также широко известная как Automatic Speech Recognition (ASR), - это технология, которая преобразует устную речь в письменный текст. Она преодолевает разрыв между человеческой речью и машиночитаемыми форматами текста, являясь важнейшим компонентом многих современных приложений искусственного интеллекта (AI) и машинного обучения (ML). STT позволяет устройствам и программному обеспечению понимать и отвечать на голосовые команды, расшифровывать аудиоконтент и облегчать взаимодействие человека и компьютера с помощью голоса. В основе технологии обычно лежат сложные модели, обученные на огромных объемах аудиоданных(Big Data) для точного сопоставления звуков речи с соответствующими им текстовыми представлениями.

Как работает преобразование речи в текст

Процесс преобразования речи в текст обычно включает в себя два основных этапа: акустическое моделирование и языковое моделирование.

  1. Акустическое моделирование: Этот этап сосредоточен на преобразовании входного аудиосигнала в последовательность акустических единиц, часто фонем (основных единиц звука в языке). Модели Deep Learning (DL), в частности нейронные сети (NN), такие как рекуррентные нейронные сети (RNN) и трансформаторы, обучаются распознавать паттерны в аудиосигнале, соответствующие этим фонетическим единицам. Более подробно о методах акустического моделирования ты можешь узнать в интернете.
  2. Языковое моделирование: После того как акустическая модель создала фонетические представления, за дело берется языковая модель. Она анализирует последовательности фонетических единиц, чтобы определить наиболее вероятную последовательность слов, учитывая грамматику, синтаксис и общие шаблоны употребления слов в конкретном языке. Это помогает исправить двусмысленности и ошибки акустической модели, создавая связный текст. Узнай больше о подходах к языковому моделированию.

Точность систем STT часто измеряется с помощью таких показателей, как коэффициент ошибок слов (WER), который количественно определяет разницу между выходным текстом системы и эталонной транскрипцией.

Применение в реальном мире

Технология Speech-to-Text используется в широком спектре приложений в различных областях:

  • Виртуальные ассистенты: Обеспечение голосового взаимодействия с такими устройствами, как Amazon Alexa и Google Assistant, для выполнения таких задач, как установка напоминаний, воспроизведение музыки или ответы на вопросы.
  • Услуги транскрипции: Автоматически преобразуй аудиозаписи с совещаний, интервью, лекций или медиаконтента в текст с помощью таких сервисов, как Otter.ai или Rev.
  • Системы голосового управления: Позволяют управлять программным обеспечением, транспортными средствами(ИИ в самодвижущихся автомобилях) и устройствами умного дома в режиме "свободные руки".
  • Инструменты доступности: Помогают людям с нарушениями слуха или физическими недостатками, предоставляя субтитры в реальном времени или обеспечивая голосовой ввод текста. Такие ресурсы, как W3C Web Accessibility Initiative (WAI), подчеркивают роль таких технологий.
  • Обслуживание клиентов: Анализируй записи колл-центра для проверки качества, анализа настроения и извлечения ключевой информации.

Смежные понятия

Важно отличать STT от похожих терминов:

  • Преобразование текста в речь (Text-to-Speech, TTS): Это обратный процесс, преобразующий письменный текст в устный аудиовыход.
  • Распознавание речи: Часто используется взаимозаменяемо с STT/ASR, но иногда может включать в себя более широкие задачи, такие как идентификация диктора или распознавание эмоций по голосу. STT же фокусируется на расшифровке содержания речи.
  • Обработка естественного языка (NLP): STT часто является предварительным этапом для решения задач NLP. После того как речь преобразована в текст, можно применить методы НЛП, чтобы понять смысл, извлечь сущности или выполнить перевод.

Передача речи в текст и Ultralytics

Хотя Ultralytics в первую очередь занимается компьютерным зрением (CV) с Ultralytics YOLO модели для таких задач, как обнаружение объектов и сегментация изображений, Speech-to-Text может дополнить приложения визуального ИИ. Например, в интеллектуальной системе безопасности STT может анализировать устные угрозы, захваченные микрофонами, работая вместе с обнаружением объектов YOLO , чтобы обеспечить комплексное понимание события. Ultralytics HUB предлагает платформу для управления и развертывания моделей ИИ, и по мере того как ИИ будет двигаться в сторону мультимодального обучения, интеграция STT с моделями зрения будет становиться все более важной для создания надежных систем ИИ, возможно, как часть большого рабочего процесса проекта по компьютерному зрению. Наборы инструментов с открытым исходным кодом, такие как Kaldi, и проекты, подобные Mozilla DeepSpeech, значительно продвинули область ASR.

Читать полностью