用語集

スピーチ・トゥ・テキスト

音声対話、文字起こし、アクセシビリティ・ツールを可能にするSpeech-to-Textテクノロジーが、AIを使って話し言葉をどのようにテキストに変換するかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

自動音声認識(ASR)としても広く知られているSTT(Speech-to-Text)は、コンピュータが人間の話し言葉を理解し、文字に書き起こすことを可能にする技術である。人工知能(AI)および機械学習(ML)という広範な分野において、人間との対話とデジタル処理との間に重要な橋渡しをする。音声ストリームをテキストデータに変換することで、STTは機械が音声入力を処理、分析、応答することを可能にし、膨大なアプリケーションに力を与えます。

スピーチ・トゥ・テキストの仕組み

STTの中核には、オーディオ信号を分析する高度なアルゴリズムが含まれる。このプロセスには通常2つの主要コンポーネントが含まれる:

  1. 音響モデル:このコンポーネントは、音声入力のセグメントを、言語の基本的な音である音声ユニットにマッピングする。発音、アクセント、バックグラウンドノイズのバリエーションにもかかわらず、異なる音を区別することを学習します。高度な音響モデリング技術はリカレント・ニューラル・ネットワーク(RNN)やトランスフォーマーのようなディープラーニング(DL)アーキテクチャを採用することが多い。
  2. 言語モデル:このコンポーネントは、音響モデルから音声ユニットのシーケンスを受け取り、首尾一貫した単語、フレーズ、およびセンテンスに変換します。多くの場合、膨大なテキストデータセットから学習された統計的確率を使用して、最も可能性の高い単語のシーケンスを予測し、文字起こしの精度と流暢さを向上させます。言語モデリングは自然言語処理(NLP)の基本的な側面である。

このようなモデルのトレーニングには、多様な話し方、言語、音響条件を表す大量のラベル付き音声データ(トレーニングデータ)が必要です。

実世界での応用

STT技術は多くの最新アプリケーションに不可欠である:

  • バーチャルアシスタント:スマートフォンやスマートスピーカー(SiriAlexaGoogle Assistant)などのデバイスの音声コマンドを可能にする。バーチャルアシスタント用語集をご覧ください。
  • テープ起こしサービス: Otter.aiのようなツールを使って、会議、講義、インタビュー、ボイスメールなどを自動的にテキスト化する。これは、医療口述や法律文書などの分野で特に重要です。
  • 音声制御システム:ハンズフリーで機器を操作できるようにするもので、車載システムのAIでは一般的。
  • アクセシビリティ・ツール:聴覚障害者にリアルタイムキャプションを提供し、メディアアクセシビリティを高める。
  • コールセンター分析:顧客との通話を書き起こし、感情を分析し、傾向を特定し、サービス品質を向上させる。

関連技術との主な違い

STTを類似の用語と区別することは重要である:

  • テキスト音声合成(TTS)書かれたテキストを音声に変換する。
  • 話者の認識:話している内容を書き写すのではなく、音声の特徴に基づいて誰が話しているかを識別することに重点を置く。話者認識システムは、認証やダイアライゼーション(誰がいつ話したかを特定すること)に使用される。
  • 自然言語理解(NLU)NLPのサブフィールドで、書き起こしにとどまらず、話し言葉の背後にある意味、意図、感情を解釈する。

課題と今後の方向性

大きな進歩にもかかわらず、STTは、訛りの強い音声、背景雑音、話者の重複、文脈や言語的曖昧性の理解などを正確に書き起こすという課題に直面している。また、不均衡な学習データから学習されるAIのバイアスを軽減することも重要である。現在進行中の研究は、Google AI Blogや OpenAI Blogのようなプラットフォームで取り上げられることが多く、頑健性、リアルタイム性能、多言語能力の向上に重点を置いている。

スピーチ・トゥ・テキストとUltralytics

Ultralytics 、主にコンピュータビジョン(CV)に焦点を当てていますが Ultralytics YOLOモデルを使って、物体検出や 画像セグメンテーションのようなタスクに取り組んでいますが、STTは視覚的AIアプリケーションを補完することができます。例えば、スマートセキュリティシステムでは、STTはマイクで捉えた音声による脅威を分析し、YOLO オブジェクト検出と連携して、イベントの包括的な理解を提供することができます。Ultralytics HUBは、AIモデルを管理・展開するためのプラットフォームを提供し、AIがマルチモーダルモデルを使用したマルチモーダル学習に移行するにつれて、STTを以下のようなフレームワークを使用して構築されたビジョンモデルと統合します。 PyTorchのようなフレームワークで構築されたビジョンモデルとSTTを統合することがますます重要になるでしょう。KaldiのようなオープンソースのツールキットやMozilla DeepSpeechのようなプロジェクトは、Ultralytics Docsのようなリソースで文書化された、より広いAIエコシステムで利用可能なリソースに貢献しながら、この分野を発展させ続けています。

すべて読む