ケーススタディ: 発話コレクション
7 言語の多言語デジタル アシスタントを構築するために 13 万以上の発話を提供
実世界のソリューション
グローバルな会話を促進するデータ
発話トレーニングの必要性が生じるのは、スクリプト化された形式で音声アシスタントとやり取りしたり質問したりする際に、すべての顧客が正確な単語やフレーズを使用しているわけではないためです。 そのため、特定の音声アプリケーションを自発的な音声データでトレーニングする必要があります。 例: 「最寄りの病院はどこですか?」 「近くの病院を探す」または「近くに病院はありますか?」 すべて同じ検索意図を示していますが、言い回しが異なります。

問題
クライアントの Digital Assistant の音声ロードマップを世界中の言語で実行するために、チームは音声認識 AI モデル用に大量のトレーニング データを取得する必要がありました。 クライアントの重要な要件は次のとおりです。
- 3 のグローバル言語での音声認識サービス用に、大量のトレーニング データ (30 人の話者による 13 ~ XNUMX 秒以内の発話プロンプト) を取得します。
- サプライヤーは、言語ごとに、スピーカーが録音するためのテキスト プロンプトを生成します (
クライアントが提供するもの) を作成し、結果の音声を書き起こします。 - 対応する JSON ファイルを使用して、音声データと録音された発話の書き起こしを提供します
すべての録音のメタデータが含まれています。 - 年齢、性別、学歴、方言ごとに多様なスピーカーの組み合わせを確保する
- 仕様に従って、さまざまな録音環境の組み合わせを確保します。
- 各オーディオ録音は、少なくとも 16kHz、できれば 44kHz でなければなりません
「多くのベンダーを評価した後、会話型 AI プロジェクトの専門知識を理由に、クライアントは Shaip を選択しました。 Shaip のプロジェクト遂行能力、13 言語の専門言語学者からの要求された発話を、厳格なタイムライン内で必要な品質で調達、書き起こし、提供する専門知識に感銘を受けました。」
解決策
私たちは会話型 AI を深く理解しており、専門の言語学者とアノテーターのチームと共にクライアントがデータを収集、書き起こし、注釈を付けるのを支援し、AI を活用した音声処理多言語音声スイートをトレーニングしました。
Shaip の作業範囲には、音声認識用の大量のオーディオ トレーニング データの取得、Tier 1 および Tier 2 言語ロードマップのすべての言語の複数言語でのオーディオ録音の書き起こし、および対応する JSONの メタデータを含むファイル。 Shaip は、複雑なプロジェクトの ML モデルをトレーニングするために必要な品質レベルを維持しながら、3 ~ 30 秒の発話を大規模に収集しました。
- オーディオの収集、書き起こし、注釈: 22,250時間
- サポートされる言語: 13 (デンマーク語、韓国語、サウジアラビア アラビア語、オランダ語、本土および台湾の中国語、フランス系カナダ人、メキシコ スペイン語、トルコ語、ヒンディー語、ポーランド語、日本語、ロシア語)
- 発話数: 7M +
- タイムライン: 7-8ヶ月
16 kHz で音声を収集しながら、さまざまな録音環境で、年齢、性別、教育、方言ごとに話者の健全な組み合わせを確保しました。
当社の専門知識
推奨リソース
次のAIイニシアチブをどのように支援できるか教えてください。