用語集

スピーチ・トゥ・テキスト

音声対話、文字起こし、アクセシビリティ・ツールを可能にするSpeech-to-Textテクノロジーが、AIを使って話し言葉をどのようにテキストに変換するかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

自動音声認識(ASR)としても広く知られているSTT(Speech-to-Text)は、話し言葉を書き言葉に変換する技術です。人間の音声と機械が読み取り可能なテキスト形式とのギャップを埋めるもので、最新の人工知能(AI)や機械学習(ML)アプリケーションの多くで重要なコンポーネントを形成しています。STTは、デバイスやソフトウェアが音声コマンドを理解して応答したり、音声コンテンツを書き起こしたり、音声による人間とコンピュータの対話を促進したりすることを可能にする。その基礎となる技術には通常、膨大な音声データ(ビッグデータ)に対して学習させた複雑なモデルが含まれ、音声を対応するテキスト表現に正確にマッピングします。

スピーチ・トゥ・テキストの仕組み

音声をテキストに変換するプロセスには、一般に音響モデリングと言語モデリングの2つの主要段階がある。

  1. 音響モデリング:この段階は、入力音声信号を一連の音響単位(多くの場合、音素(言語における音の基本単位))に変換することに重点を置く。ディープラーニング(DL)モデル、特にリカレント・ニューラル・ネットワーク(RNN)やトランスフォーマーなどの ニューラル・ネットワーク(NN)は、これらの音声ユニットに対応する音声波形のパターンを認識するように訓練される。音響モデリング技術の詳細については、オンラインで検索できます。
  2. 言語モデリング:音響モデルが音声表現を生成すると、言語モデルがそれを引き継ぎます。言語モデルは、文法、構文、および特定の言語内で一般的な単語の使用パターンを考慮しながら、最も可能性の高い単語の順序を決定するために音声ユニットのシーケンスを分析します。これにより、音響モデルの曖昧さやエラーが修正され、首尾一貫したテキスト出力が生成されます。言語モデリングアプローチの詳細については、こちらをご覧ください。

STTシステムの精度は、単語誤り率(WER)のようなメトリクスを使って測定されることが多い。

実世界での応用

音声テキスト技術は、様々な領域で幅広いアプリケーションを支えている:

  • バーチャルアシスタント:リマインダーの設定、音楽の再生、質問への回答などのタスクのために、Amazon Alexaや Google Assistantのようなデバイスとの音声対話を可能にする。
  • テープ起こしサービス: Otter.aiや Rev.Rev.Rev.などのサービスを利用して、会議、インタビュー、講義、メディアコンテンツなどの音声を自動的にテキストに変換します。
  • 音声制御システム:ソフトウェア、自動車(自動運転車のAI)、スマートホームデバイスをハンズフリーで操作できるようにする。
  • アクセシビリティ・ツール:リアルタイムのキャプションを提供したり、音声ベースのテキスト入力を可能にしたりすることで、聴覚障害や身体障害のある人を支援する。W3C Web Accessibility Initiative (WAI)などのリソースは、このような技術の役割を強調しています。
  • カスタマーサービスコールセンターの録音を分析し、品質保証、センチメント分析、重要情報の抽出を行う。

関連概念

STTを類似の用語と区別することは重要である:

  • 音声合成(TTS)これは逆のプロセスで、書かれたテキストを話し言葉の音声出力に変換する。
  • 音声認識STT/ASRと同じ意味で使われることが多いが、話者の識別や音声からの感情認識など、より広範なタスクを含むこともある。STTは特に音声の内容を書き起こすことに重点を置いている。
  • 自然言語処理(NLP)STTは自然言語処理(NLP)タスクの前段階であることが多い。音声がテキストに変換されると、意味の理解、エンティティの抽出、翻訳の実行に自然言語処理技術が適用される。

スピーチ・トゥ・テキストとUltralytics

Ultralytics 、主にコンピュータビジョン(CV)に焦点を当てていますが Ultralytics YOLOモデルを使って、物体検出や 画像セグメンテーションのようなタスクに取り組んでいますが、STTは視覚的AIアプリケーションを補完することができます。例えば、スマートセキュリティシステムでは、STTは、YOLO オブジェクト検出と一緒に動作し、イベントの包括的な理解を提供するために、マイクによってキャプチャされた話し言葉の脅威を分析することができます。Ultralytics HUBは、AIモデルを管理・展開するためのプラットフォームを提供しており、AIがマルチモーダル学習に向かうにつれて、STTを視覚モデルと統合することは、より大規模なコンピュータビジョンプロジェクトワークフローの一部として、ロバストなAIシステムを作成するためにますます重要になるでしょう。KaldiのようなオープンソースのツールキットやMozilla DeepSpeechのようなプロジェクトは、ASRの分野を大きく発展させてきた。

すべて読む