音声対話、文字起こし、アクセシビリティ・ツールを可能にするSpeech-to-Textテクノロジーが、AIを使って話し言葉をどのようにテキストに変換するかをご覧ください。
自動音声認識(ASR)としても広く知られているSTT(Speech-to-Text)は、話し言葉を書き言葉に変換する技術です。人間の音声と機械が読み取り可能なテキスト形式とのギャップを埋めるもので、最新の人工知能(AI)や機械学習(ML)アプリケーションの多くで重要なコンポーネントを形成しています。STTは、デバイスやソフトウェアが音声コマンドを理解して応答したり、音声コンテンツを書き起こしたり、音声による人間とコンピュータの対話を促進したりすることを可能にする。その基礎となる技術には通常、膨大な音声データ(ビッグデータ)に対して学習させた複雑なモデルが含まれ、音声を対応するテキスト表現に正確にマッピングします。
音声をテキストに変換するプロセスには、一般に音響モデリングと言語モデリングの2つの主要段階がある。
STTシステムの精度は、単語誤り率(WER)のようなメトリクスを使って測定されることが多い。
音声テキスト技術は、様々な領域で幅広いアプリケーションを支えている:
STTを類似の用語と区別することは重要である:
Ultralytics 、主にコンピュータビジョン(CV)に焦点を当てていますが Ultralytics YOLOモデルを使って、物体検出や 画像セグメンテーションのようなタスクに取り組んでいますが、STTは視覚的AIアプリケーションを補完することができます。例えば、スマートセキュリティシステムでは、STTは、YOLO オブジェクト検出と一緒に動作し、イベントの包括的な理解を提供するために、マイクによってキャプチャされた話し言葉の脅威を分析することができます。Ultralytics HUBは、AIモデルを管理・展開するためのプラットフォームを提供しており、AIがマルチモーダル学習に向かうにつれて、STTを視覚モデルと統合することは、より大規模なコンピュータビジョンプロジェクトワークフローの一部として、ロバストなAIシステムを作成するためにますます重要になるでしょう。KaldiのようなオープンソースのツールキットやMozilla DeepSpeechのようなプロジェクトは、ASRの分野を大きく発展させてきた。