用語集

音声合成

高度な音声合成(TTS)テクノロジーがテキストをリアルな音声に変換し、アクセシビリティ、AIとのインタラクション、ユーザーエクスペリエンスを向上させる方法をご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

音声合成(Text-to-Speech:TTS)は、支援技術の一種であり、書かれたデジタルテキストを音声出力に変換する人工知能(AI)の一分野である。機械学習(ML)、特にディープラーニング(DL)の進歩を活用することで、最新のTTSシステムは、人間のイントネーションやリズムを模倣した、非常に自然な音声を生成することができる。この技術は、テキスト情報と聴覚的消費のギャップを埋め、デジタルコンテンツをより利用しやすくし、新しい形の人間とコンピュータの相互作用を可能にする。

音声合成の仕組み

通常、テキストを音声に変換するプロセスにはいくつかの段階があり、高度なニューラルネットワーク(NN)アーキテクチャによって処理されることが多い:

  1. テキストの前処理:入力テキストをクリーニングし、正規化する。これには、略語の拡張、数値の単語への変換、句読点の処理などが含まれ、テキストを言語分析用に準備する。この段階は、自然言語処理(NLP)の技術に大きく依存する。
  2. 言語分析:システムは正規化されたテキストを分析し、その構造と意味を理解する。これには、品詞の識別や、単語を音素(音の基本単位)に変換する音声転写が含まれる。
  3. 韻律生成:システムは、言語分析に基づいて、音声に適切なリズム、ピッチ、ストレス、イントネーション(韻律)を予測します。このステップは、合成された音声をロボット的ではなく、自然に聞こえるようにするために非常に重要である。 Google AIなどの研究所の研究により、韻律モデリングは大幅に進歩した。
  4. 波形合成:音声と韻律情報を使って、音声波形(音声信号)を生成する。初期の手法では、あらかじめ録音された音声の断片を連結していたが、最近のアプローチでは、WaveNetのようなニューラル・ボコーダを使って音声を直接合成することが多く、より高品質で柔軟な音声生成が可能になった。

音声合成の応用

TTS技術は、さまざまな領域で数多くの実用的な応用がある:

  • アクセシビリティスクリーンリーダーはTTSを利用してデジタルコンテンツを音声で読み上げ、ウェブアクセシビリティガイドライン(WCAG)に沿って、視覚障害者や読書困難者に必要不可欠なアクセスを提供します。
  • バーチャルアシスタントとチャットボット:Amazon Alexa、Google Assistant、Siriのようなシステムは、TTSを使用して音声応答を提供し、ハンズフリーでの対話を可能にします。バーチャル・アシスタントの概念を探求しましょう。
  • ナビゲーション・システム:GPSアプリケーションは、音声によるターン・バイ・ターンの道案内を提供し、道路から目を離す必要のないドライバーの安全性を高める。これは、自動運転車のAIのような分野に関連している。
  • eラーニングとオーディオブック:TTSは教材や書籍をオーディオフォーマットに変換し、学習や文学の消費に別の方法を提供します。
  • 公共アナウンスシステム:空港、駅、その他の公共スペースでの自動アナウンスでは、しばしばTTSが使用されます。空港管理におけるAIの活用をご覧ください。
  • ゲームとエンターテイメントTTSは、ビデオゲームやその他のエンターテインメント・アプリケーションで、キャラクターやナレーションのボイスオーバーを提供することができます。

音声合成と関連技術の比較

TTSを関連概念と区別することは重要だ:

  • 音声認識/Speech-to-Text:これはTTSの逆プロセスである。音声認識システムは話し言葉を書き言葉に変換する。Speech-to-Textも参照のこと。
  • 自然言語処理(NLP):NLPは、コンピュータが人間の言語を理解、解釈、生成できるようにすることに焦点を当てた、より広範な分野である。TTSはNLPに含まれる、または密接に関連するアプリケーション分野で、特にテキストからの音声合成に重点を置いています。NLPの詳細
  • テキスト生成:TTSが既存のテキストを発声するのに対し、GPT-4のようなテキスト生成モデルは新しいテキストコンテンツを作成する。

Ultralytics 主にコンピュータビジョン(CV)に焦点を当て、以下のようなモデルを提供している。 Ultralytics YOLOのようなモデルを用いて物体検出などのタスクに取り組んでいるが、TTSはAIのもう一つの重要な分野であり、より包括的なインタラクション機能を実現するために、ロボット工学などのアプリケーションでビジョン・システムと一緒に使用されることが多い。多くのクラウドプロバイダーがAWS Pollyや Google Cloud TTSのようなTTSサービスを提供しており、Mozilla TTSのようなオープンソースの代替サービスも利用できる。

すべて読む