スピーチからテキストへ

スピーチからテキストへ

音声テキスト変換(STT)は、AIモデルを用いて話し言葉をテキストに自動的に変換するプロセスです。ASRと密接に関連しています。

目的

音声コンテンツにアクセスし、検索できるようにすることを目的としています。文字起こし、アクセシビリティ、デジタルアシスタントなどで広く利用されています。

重要性

  • 聴覚障害のあるユーザーのためのアクセシビリティをサポートします。
  • 会議や講義の記録を提供します。
  • 精度はアクセントや騒音状況によって異なります。
  • ほぼすべての音声駆動型アプリケーションで使用されます。

仕組み

  1. オーディオ入力をキャプチャします。
  2. オーディオ信号を前処理して正規化します。
  3. ASR モデルを適用して単語を認識します。
  4. テキストの転写を出力します。
  5. 必要に応じて、人間の監督の下で確認または修正します。

例(実世界)

  • Google Cloud 音声テキスト変換 API。
  • Microsoft Azure 音声サービス。
  • Otter.ai 会議の文字起こし。

参考文献 / さらに読む

次のAIイニシアチブをどのように支援できるか教えてください。