発話データの収集

AIにおける「発話」とは何か?:事例、データセット、ベストプラクティス

「Hey Siri」または「Alexa」と言うと、チャットボットや仮想アシスタントがどのように起動するのか疑問に思ったことはありませんか? これは、プログラムされたウェイク ワードを聞くとすぐにシステムを起動する、ソフトウェアに埋め込まれたテキスト発話コレクションまたはトリガー ワードによるものです。

ただし、音声と発話データを作成する全体的なプロセスはそれほど単純ではありません。 目的の結果を得るには、適切な技術を使用して実行する必要があるプロセスです。 したがって、このブログでは、会話型 AI とシームレスに連携する優れた発話/トリガー ワードを作成するためのルートを共有します。

AIにおける「発話」とは何でしょうか?

会話型AI(チャットボット、音声アシスタント)において、発話とはユーザー入力の短い部分、つまりユーザーが発話または入力した正確な言葉を指します。モデルは発話を用いて、ユーザーの意図(目標)とエンティティ(日付、商品名、数量などの詳細)を理解します。

簡単な例

Eコマースボット

発話:「注文を追跡する 123-456に設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

  • インテント: TrackOrder
  • エンティティ: order_id = 123-456

テレコムボット

発話:「データプランをアップグレードするに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

  • 意図: 変更計画
  • エンティティ: plan_type = データ

銀行音声アシスタント

発話(口頭):「W今日の当座預金残高はいくらですか? 

  • 意図: 残高確認
  • エンティティ: account_type = 当座預金、日付 = 今日

会話型AIに優れた発話データが必要な理由

チャットボットや音声アシスタントを、頼りないものではなく、役に立つものにしたいなら、まずは発話データの品質向上から始めましょう。発話とは、人々が何かをするために発話したり入力したりする生のフレーズです(「明日の部屋を予約して」「プランを変更して」「状況はどうですか?」など)。発話は、意図の分類、エンティティ抽出、そして最終的には顧客体験の向上に大きく貢献します。発話が多様で、代表的で、適切にラベル付けされていれば、モデルは意図間の適切な境界を学習し、複雑な現実世界の入力を冷静に処理できるようになります。

発話リポジトリの構築: シンプルなワークフロー

発話リポジトリの構築

1. 実際のユーザーの言語から始める

鉱山 チャットログ、検索クエリ、IVRトランスクリプト、エージェントメモ、顧客からのメールなど、様々なデータを集め、ユーザーの目標別にクラスタリングすることで、意図を掘り下げることができます。(会議室では思いつかないような口語表現やメンタルモデルを捉えることができます。)

2. 意図的にバリエーションを作る

それぞれの意図について、さまざまな例を作成します。

  • 動詞と名詞を言い換えます(「キャンセル」、「停止」、「終了」、「計画」、「サブスクリプション」)。
  • 文の長さと構造(疑問文、指示文、断片文)を混ぜ合わせます。
  • 関連する場合は、タイプミス、略語、絵文字(チャット用)、コードスイッチングを含めます。
  • 似ているが、 この意図にマップします。

3. クラスのバランスをとる

極端に偏ったトレーニング(例えば、1つのインテントに500例、他のインテントに10例)は予測品質を低下させます。 意図の大きさは比較的均等 交通が教えてくれるように、一緒に成長させましょう。

4. トレーニング前に品質を検証する

低信号データをブロック バリデーター 作成/収集中:

  • 言語検出: 例がターゲット言語で書かれていることを確認します。
  • 意味不明な単語の検出器: 無意味な文字列をキャッチします。
  • 重複/ほぼ重複のチェック: 多様性を高く保ちます。
  • 正規表現/スペルと文法: 必要に応じてスタイル ルールを適用します。
    スマートバリデーター(Appen が使用)は、このゲートキーピングの大部分を自動化できます。

5. エンティティに一貫したラベルを付ける

スロットタイプ(日付、製品、住所)を定義し、注釈を表示する 境界線を定める方法. 次のようなパターン パターン任意 LUIS では、モデルを混乱させる長い可変範囲 (ドキュメント名など) を明確にすることができます。

6. 本番環境のようにテストする

プッシュ 目に見えない 実際の発話を予測エンドポイントまたはステージングボットに送信し、誤分類を確認し、 推進する 曖昧な例をトレーニングに取り入れましょう。これをループさせましょう:収集→トレーニング→レビュー→拡張。

「混沌とした現実」の本当の意味(そして、それにどう対処するか)

実際のユーザーは完璧な文章で話すことは稀です。以下の点に注意してください。

  • フラグメント: 「送料の返金」
  • 複合目標: 「注文をキャンセルして青色で再注文」
  • 暗黙のエンティティ: 「私のオフィスに発送してください」(どのオフィスか知っておく必要があります)
  • あいまいさ: 「プランを変更する」(どのプランですか?いつから有効になりますか?)

実用的な修正

  • 提供する 明確なプロンプト 必要なときだけ、過度な要求は避けてください。
  • キャプチャ コンテキストの持ち越し (代名詞「その注文」「最後のもの」など)。
  •   フォールバックインテント ターゲットを絞った回復について:「計画のキャンセルや変更をお手伝いできます。どちらをご希望ですか?」
  • モニター 意図的な健康 (混乱、衝突)そして弱いところにデータを追加する

音声アシスタントとウェイクワード:異なるデータ、類似のルール

音声アシスタントとウェイクワード ウェイクワード(「Hey Siri」「Alexa」、カスタムウェイクフレーズ)は、強い音響的制約のある特殊な発話サブセットですが、 報道の考え方 多様なスピーカー、デバイス、環境が依然として適用されます。起床後、 言語発話 実際のタスク(「電気をつける」「ジャズを演奏する」など)を引き継ぐ。 ウェイク および タスク データセットを区別し、個別に評価します。

既成データとカスタムデータをいつ(どのように)使用するか

既成データとカスタムデータ

  • 既製品: 新しい地域での報道を迅速に開始し、混乱が残っている部分を測定します。
  • カスタム: ドメイン言語 (ポリシー用語、製品名) と「ブランドの声」をキャプチャします。
  • ブレンド: 広範囲から始めて、最も偏向または収益への影響が大きい意図について高精度のデータを追加します。

高速オンランプが必要な場合、Shaipは 発話収集 多くの言語にわたる既製の音声/チャット データセット。多言語アシスタントの展開についてはケース スタディをご覧ください。

実装チェックリスト

実装チェックリスト

  • 例を使ってインテントとエンティティを定義し、
  • 著者 多様でバランスの取れた 各意図の発話(最初は小さく、毎週大きくする)
  • トレーニング前にバリデータ(言語、意味不明な文字列、重複、正規表現)を追加する
  • セットアップ レビューループ 実際の交通から; 曖昧な項目をトレーニングに促進する 
  • トラック 意図的な健康 衝突; 新しい発話で修正
  • チャネル/地域別に再評価して、早期に変化を捉える

Shaipがどのように役立つか

  • カスタム発話収集とラベル付け (チャット + 音声) バリデーターを使用して、高い品質を維持します。
  • すぐに使えるデータセット 迅速なブートストラップのために 150 以上の言語/バリエーションに対応しています。
  • 進行中のレビュープログラム ライブ トラフィックを安全かつ確実に高信号トレーニング データに変換します (PII 制御)。

多言語対応の 発話収集のケーススタディ。

社会シェア