キーフレーズ/プロンプトの音声収集

ケーススタディ: 車載音声起動システムのキーフレーズ集

キーフレーズ集

自動車業界では車載音声起動システムの需要が高まっており、モビリティ車両との関わり方が再定義されています。

自動車業界は音声起動システムを急速に導入しており、フォード、テスラ、BMW などの大手企業は自社の車両に高度な音声認識を統合しています。 2022 年までに、新車の 50% 以上が音声認識機能を搭載すると推定されています。 これらの統合は安全性を強化し、ドライバーが気を散らすことなくナビゲーション、エンターテインメント、通信機能を操作できるようにすることを目的としています。

自動車における音声認識の市場価値は、1 年までに 2023 億ドルを超えると予測されており、ハンズフリーのインテリジェントな車内インタラクションに対する需要が高まっていることを示しています。

自動車

調査によると、2022 年までにドライバーの 73% が車内の音声アシスタントを使用するようになるそうです。

車載用音声認識システム市場は、2.01年に2021億3.51万米ドルと評価され、2027年までに8.07億XNUMX万米ドルに達し、約XNUMX%のCAGRを記録すると予想されています。

実世界のソリューション

音声起動システムに電力を供給するデータ

自動車の音声起動システムは、安全性と利便性を高めます。 これにより、ドライバーはハンドルから手を放したり、道路から目を離したりすることなく、ナビゲーションにアクセスしたり、電話をかけたり、テキストを送信したり、音楽をコントロールしたりすることができます。 これらのシステムは、口頭によるコマンドに応答することで、注意力の散漫を軽減し、マルチタスクを促進し、運転への継続的な集中力を確保します。 

クライアントは、企業が顧客に素晴らしい会話エクスペリエンスを提供できる音声 AI ソリューションを提供する会話インテリジェンスの世界的リーダーです。 彼らは大手自動車会社と協力して、自社の音声起動システムをブランド化されたキーフレーズでトレーニングしていたため、音声データ収集におけるシャイプの専門知識が必要でした。

現実世界のソリューション
課題

課題

  • クラウドソーシング: 世界中で言語ごとに 2800 人以上のネイティブ スピーカーを採用します。
  • データ収集: 設定された期間内に 200 言語で 12 以上のプロンプトを保護します。
  • コンテキストと意図の認識: ユーザーのリクエストを正しく理解するには、同じキーフレーズのさまざまなバリエーションについてシステムをトレーニングする必要がありました。
  • 背景ノイズの処理: ML モデルの精度を高めるために現実世界のバックグラウンド ノイズに対処します。
  • バイアスの軽減: 多様な人口統計から音声サンプルを取得して包括性を確保する.
  • オーディオ仕様: 16khz 16ビット PCM、モノラル、シングルチャンネル、WAV; 処理はありません。
  • 録音環境: 録音には、バックグラウンドノイズや妨害のない、きれいな音声が含まれている必要があります。 通常の音声で録音するキーフレーズ。
  • 品質チェック:  すべての音声録音は品質評価と検証を受け、検証された音声録音のみが配信されます。 Shaip が合意された品質基準を満たしていない場合、Shaip は追加費用なしでデータを再配信します。

ソリューション

Shaip は、会話型 AI 分野の専門知識を備えており、クライアントに次のことを可能にしました。

  • データ収集: 規定の期間内に 208 人の話者から 12 の世界言語で収集された 2800 のキー フレーズ/ブランド プロンプト
  • 多様なアクセントと方言: 希望するアクセントや方言に精通した専門家を世界中から採用しました。
  • コンテキストと意図の認識: すべての講演者は、20 の異なるバリエーションでキー フレーズを記録するという任務を負っており、ML モデルがコンテキストと意図の観点からユーザーのリクエストを正確に把握できるようになりました。
  • 背景ノイズの処理: 原始的なオーディオ品質を確保するために、キー フレーズは、テレビ、ラジオ、音楽、話し言葉、街の音などの周囲の妨害がない、ノイズ レベルが 40dB 未満の静かな環境で録音されるようにしました。
  • バイアスの軽減: 偏見を最小限に抑えるために、さまざまな地域の個人を参加させ、50 歳から 50 歳までの年齢層にわたる男性 18%、女性 60% というバランスのとれた人口構成を維持しました。
  • 録音ガイドライン: 重要なフレーズは、速いペースや遅いペースなどの変化がなく、一貫した通常の音声パターンでキャプチャされました。 音声の一部が誤って切り取られないように、最初と最後に 2 秒間の沈黙を設けます。
  • 記録形式: オーディオは 16kHz、16 ビット PCM でモノラルで単一チャンネルを利用して録音され、WAV ファイル形式で保存されました。 オーディオは未処理のままです。つまり、圧縮、リバーブ、または EQ は適用されていません。
  • 品質: すべての音声録音は厳格な品質チェックと検証を受けました。 この評価に合格した録音のみが納品されました。 合意された品質基準を満たしていないファイルは再録音され、追加料金なしで提供されました。
ソリューション
結果

結果

高品質のブランド キー フレーズの音声データまたは音声プロンプトにより、自動車会社とその顧客は次のことが可能になります。

  1. ブランディングとアイデンティティ: 特定のブランドフレーズを含む音声プロンプトは、企業がユーザーとブランドの間に直接的で記憶に残るつながりを作り、ブランド想起を高めるのに役立ちます。
  2. 使いやすさ: 音声コマンドにより、ドライバーはハンドルから手を放したり、道路から目を離したりすることなく、車両との対話が容易になり、交通安全が強化されます。
  3. 機能性: 音声コマンドにより、車の機能へのアクセスと制御がより直感的になります。 ナビゲーション、メディア再生、空調制御など。
  4. 他のシステムとの統合: 多くの音声起動システムは、スマートフォン、スマート ホーム デバイス、その他の IoT デバイスと統合されています。 たとえば、ユーザーは、家に近づくときに家のライトをオンにするように車に依頼できる場合があります。
  5. 競争上の優位性: 高度な音声起動システムを提供することは、セールスポイントであり差別化要因となる可能性があります。 購入者は新車の購入を検討する際、最新のテクノロジーを求めます。
  6. 将来を保証する: テクノロジーが進化し、IoT が日常生活にさらに統合されるにつれて、堅牢な音声起動システムを導入することで、自動車会社は将来のテクノロジーにさらに適応できるようになります。
  7. 収益機会: 追加の収益化の機会、つまり音声システムは、アフィリエイト収入をもたらす可能性のある推奨事項や統合された電子商取引体験 (食べ物の注文や近くのサービスの検索など) を提供します。
ゴールデン 5 つ星

私たちが自動車分野向けに音声プロンプトの調達を開始したとき、多くの課題がありました。 話し方、アクセント、口調の多様性を捉えることは、クライアントの世界中の顧客を表現するために不可欠でした。 Shaip はベンダーとしてだけでなく、真のパートナーとしても傑出した人物でした。 さまざまな地域から多様な声を確保しようとする彼らの取り組みは称賛に値します。 彼らは単に声を集めるだけではありませんでした。 彼らは私たちのプロジェクトのニーズを微妙に理解し、最高のレコーディングを保証してくれました。 オーディオ収集基準に対する彼らの完璧な遵守は、彼らのプロ意識とプロジェクトへの献身的な姿勢を示しています。

会話型AIを加速する
100%のアプリケーション開発