用語集

スピーチ・トゥ・テキスト

音声対話、文字起こし、アクセシビリティ・ツールを可能にするSpeech-to-Textテクノロジーが、AIを使って話し言葉をどのようにテキストに変換するかをご覧ください。

自動音声認識（ASR）としても広く知られているSTT（Speech-to-Text）は、コンピュータが人間の話し言葉を理解し、文字に書き起こすことを可能にする技術である。人工知能（AI）および機械学習（ML）という広範な分野において、人間との対話とデジタル処理との間に重要な橋渡しをする。音声ストリームをテキストデータに変換することで、STTは機械が音声入力を処理、分析、応答することを可能にし、膨大なアプリケーションに力を与えます。

スピーチ・トゥ・テキストの仕組み

STTの中核には、オーディオ信号を分析する高度なアルゴリズムが含まれる。このプロセスには通常2つの主要コンポーネントが含まれる：

音響モデル：このコンポーネントは、音声入力のセグメントを、言語の基本的な音である音声ユニットにマッピングする。発音、アクセント、バックグラウンドノイズのバリエーションにもかかわらず、異なる音を区別することを学習します。高度な音響モデリング技術は、リカレント・ニューラル・ネットワーク（RNN）やトランスフォーマーのようなディープラーニング（DL）アーキテクチャを採用することが多い。
言語モデル：このコンポーネントは、音響モデルから音声ユニットのシーケンスを受け取り、首尾一貫した単語、フレーズ、およびセンテンスに変換します。多くの場合、膨大なテキストデータセットから学習された統計的確率を使用して、最も可能性の高い単語のシーケンスを予測し、文字起こしの精度と流暢さを向上させます。言語モデリングは、自然言語処理（NLP）の基本的な側面である。

このようなモデルのトレーニングには、多様な話し方、言語、音響条件を表す大量のラベル付き音声データ（トレーニングデータ）が必要です。

実世界での応用

STT技術は多くの最新アプリケーションに不可欠である：

バーチャルアシスタント：スマートフォンやスマートスピーカー（Siri、Alexa、Google Assistant）などのデバイスの音声コマンドを可能にする。バーチャルアシスタント用語集をご覧ください。
テープ起こしサービス： Otter.aiのようなツールを使って、会議、講義、インタビュー、ボイスメールなどを自動的にテキスト化する。これは、医療口述や法律文書などの分野で特に重要です。
音声制御システム：ハンズフリーで機器を操作できるようにするもので、車載システムのAIでは一般的。
アクセシビリティ・ツール：聴覚障害者にリアルタイムキャプションを提供し、メディアアクセシビリティを高める。
コールセンター分析：顧客との通話を書き起こし、感情を分析し、傾向を特定し、サービス品質を向上させる。

課題と今後の方向性

大きな進歩にもかかわらず、STTは、訛りの強い音声、背景雑音、話者の重複、文脈や言語的曖昧性の理解などを正確に書き起こすという課題に直面している。また、不均衡な学習データから学習されるAIのバイアスを軽減することも重要である。現在進行中の研究は、Google AI Blogや OpenAI Blogのようなプラットフォームで取り上げられることが多く、頑健性、リアルタイム性能、多言語能力の向上に重点を置いている。

スピーチ・トゥ・テキストとUltralytics

Ultralytics 、主にコンピュータビジョン（CV）に焦点を当てていますが Ultralytics YOLOモデルを使って、物体検出や画像セグメンテーションのようなタスクに取り組んでいますが、STTは視覚的AIアプリケーションを補完することができます。例えば、スマートセキュリティシステムでは、STTはマイクで捉えた音声による脅威を分析し、YOLO オブジェクト検出と連携して、イベントの包括的な理解を提供することができます。Ultralytics HUBは、AIモデルを管理・展開するためのプラットフォームを提供し、AIがマルチモーダルモデルを使用したマルチモーダル学習に移行するにつれて、STTを以下のようなフレームワークを使用して構築されたビジョンモデルと統合します。 PyTorchのようなフレームワークで構築されたビジョンモデルとSTTを統合することがますます重要になるでしょう。KaldiのようなオープンソースのツールキットやMozilla DeepSpeechのようなプロジェクトは、Ultralytics Docsのようなリソースで文書化された、より広いAIエコシステムで利用可能なリソースに貢献しながら、この分野を発展させ続けています。

スピーチ・トゥ・テキスト

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

スピーチ・トゥ・テキストの仕組み

実世界での応用

関連技術との主な違い

課題と今後の方向性

スピーチ・トゥ・テキストとUltralytics

ブログをもっと読む

Ultralytics コミュニティに参加する

スピーチ・トゥ・テキスト

Ultralytics HUB でを使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

スピーチ・トゥ・テキストの仕組み

実世界での応用

関連技術との主な違い

課題と今後の方向性

スピーチ・トゥ・テキストとUltralytics

ブログをもっと読む

Ultralytics コミュニティに参加する

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。