用語集

音声認識

音声認識技術が音声をテキストに変換し、音声アシスタントやテープ起こしなどのAIソリューションにどのようなパワーを与えているかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

音声認識は、しばしば自動音声認識(ASR)またはspeech-to-textと呼ばれ、人工知能(AI)および計算言語学の技術であり、コンピュータが人間の話し言葉を理解し、書き言葉に書き換えることを可能にする。人間とコンピュータのインタラクションにおいて重要なインターフェイスとして機能し、デバイスやアプリケーションが音声コマンドに応答し、音声入力を処理できるようにする。この分野では、機械学習(ML)、特にディープラーニング(DL)の原理を多用し、高い精度を達成し、音声パターン、アクセント、環境のバリエーションに対応している。

音声認識の仕組み

音声をテキストに変換するプロセスには、通常いくつかの重要な段階がある。まず、マイクを使って音声を取り込み、デジタル信号に変換する。この生の音声は、ノイズ除去や正規化などの前処理を受けます。次に、周波数や時間の経過に伴うエネルギーなどの特徴を表す音響特徴が信号から抽出される。これらの特徴は、多くの場合高度なニューラルネットワーク(NN)である音響モデルによって処理されます。一般的なアーキテクチャには、リカレントニューラルネットワーク(RNN)ロングショートタームメモリ(LSTM)ネットワーク、そして最近では、自己注意のようなメカニズムを通じてシーケンスモデリングタスクに有効であることで知られるトランスフォーマーモデルなどがある。音響モデルは、特徴を音素のような音の基本単位にマッピングする。最後に、(ビッグデータの取り組みで見られるような)膨大なテキストコーパスで訓練された言語モデルが、文法や文脈を考慮しながら、最も可能性の高い単語や文章を決定するために、これらの音素単位のシーケンスを分析する。Kaldiのようなフレームワークや、以下のようなプラットフォームからのツールキットがある。 Hugging Faceなどのツールキットが、ASRシステム構築のためのリソースを提供している。

主な特徴

音声認識を、関連はするが異なる技術と区別することは重要である:

  • 音声合成(TTS)この技術は、ASRとは逆の機能を果たし、書かれたテキストを話し言葉の音声出力に変換する。スクリーン・リーダーやバーチャル・アシスタントの音声を思い浮かべてほしい。
  • 自然言語処理(NLP)密接に関連していますが、NLPは、意味、意図、感情を抽出したり、翻訳や要約のようなタスクを実行するために、言語(テキストと書き起こされた音声の両方)の理解と解釈に焦点を当てています。ASRは、NLPシステムがしばしば操作するテキスト入力を提供します。言語モデリングは、ASRとNLPの両方のコア・コンポーネントです。
  • 発言者の認識:これは、何を話しているかではなく、誰が話しているかを識別するものである。バイオメトリクス認証や話者ダイアライゼーション(会話中の異なる話者を特定すること)に使用される。

実世界での応用

音声認識技術は、さまざまな領域で数多くのアプリケーションに組み込まれている:

  • バーチャルアシスタントAmazon Alexa、Google Assistant、AppleのSiriのようなシステムは、ユーザーのコマンドやクエリを理解するためにASRに大きく依存している。
  • テープ起こしサービス: Otter.aiのようなツールは、会議、インタビュー、講義を自動的に書き起こし、音声コンテンツを検索可能にし、アクセスしやすくします。
  • 音声制御システム: 自律走行車や最新の自動車で、ナビゲーション、エンターテインメント、空調設定をハンズフリーで操作するために広く使用されている(自動運転車のAI)。
  • ディクテーション・ソフトウェア:ヘルスケア(AI in Healthcare)や法律などの分野の専門家が、メモやレポートを直接デジタル文書に口述することを可能にします。
  • アクセシビリティ・ツール:音声によるテクノロジーとのインタラクションを可能にし、障害を持つ個人に必要不可欠な支援を提供する。MozillaのCommon Voiceのようなプロジェクトは、多様な声のためのASRの向上を目指しています。
  • カスタマーサービス自動化されたサポートを提供するため、コールセンターで音声自動応答(IVR)システムや音声ボットに電力を供給。

課題と今後の方向性

目覚ましい進歩にもかかわらず、ASRシステムは依然として課題に直面しています。ノイズの多い環境での音声の正確な書き起こし、多様なアクセントや方言への対応、会話における話者の重複への対応、ニュアンスの理解や感情分析などは、依然として活発な研究分野である。今後の進歩は、高度なディープラーニング技術による頑健性の向上、音声と視覚情報(コンピュータービジョンに関連する読唇術など)を組み合わせたマルチモーダルモデルの探求、ラベル付けされていない膨大なデータセットでモデルを訓練するための自己教師あり学習のような技術の活用に重点を置いている。Ultralytics 主に視覚AIモデルに焦点を当てているのに対し Ultralytics YOLOのような視覚AIモデルに焦点を当てていますが、音声認識のような関連AI分野の進歩は、インテリジェントシステムの全体的なエコシステムに貢献しています。Ultralytics ドキュメントでビジョンモデルのトレーニングや デプロイオプションを調べたり、Ultralytics HUBを使ってプロジェクトを管理することができます。

すべて読む