音声感情分析
AI 主導の洞察でよりスマートなコールセンターを実現
Shaip の音声データ収集と注釈に関する専門知識を活用して、リアルタイムの感情と感情の検出を強化し、顧客サービスを向上させます。
自動音声感情と
感情分析
クライアントは Shaip と提携して、コール センター向けの自動音声感情および感情分析モデルを開発しました。このプロジェクトでは、米国、英国、オーストラリア、インドの 250 つの英語方言にわたる XNUMX 時間のコール センター音声データを収集し、注釈を付けました。これにより、クライアントは AI モデルを強化し、リアルタイムの顧客とのやり取りで、幸せ、中立、怒りなどの感情や、不満、満足などの感情を検出できるようになりました。
このプロジェクトは、皮肉の検出、さまざまな音声の長さ、不満を表す微妙な言葉の合図などの課題を克服し、正確でスケーラブルな結果をもたらしました。

主要統計
コールセンターの音声データを4つの英語方言にわたって収集し、注釈を付けました
250可能時間
言語数
アメリカ英語、イギリス英語、オーストラリア英語、インド英語
ユースケース
自動音声感情・感情分析
プロジェクト範囲
英語の 250 つの方言で XNUMX 時間分のコール センター音声データを収集し、注釈を付けます。
- アメリカ英語 (30%)
- イギリス英語 (30%)
- オーストラリア英語 (20%)
- インド英語(20%)
範囲内
このプロジェクトは 3 つの部分で構成されています。
- メタデータを含む特定のエンティティを持つオーディオ データ。
- セグメント化とタイムスタンプの詳細を含む対応する転記ファイル。
- 感情と感情の注釈:
- オーディオエモーション: 幸せ、中立、怒り
- 転写感情: 非常に不満、不満、どちらでもない、満足、非常に満足
課題
音声データが指定された方言 (米国、英国、オーストラリア、インド) を正確に表していることを確認するのは難しい場合があります。これらのカテゴリ内の異なる地域では、さまざまな語彙、アクセント、発音が使用される場合があります。
音声や文字起こしに感情や心情を注釈付けるには、各方言の文化的ニュアンスや言語的微妙な違いを熟知した訓練を受けた注釈者が必要です。
オーディオの感情と文字起こしの感情は必ずしも一致するとは限りません。たとえば、怒っているように聞こえる人が、実際には満足感を表現している場合があります。たとえば、「ああ、素晴らしい。また私の問題を解決できない人がいる」などの皮肉なフレーズで皮肉な会話を処理するには、感情と感情について正しく注釈を付ける必要があります。
音声録音の品質は変化する可能性があり、文字起こしの精度や感情の検出に影響を及ぼします。背景のノイズ、会話の重複、録音機器の多様性などが大きな課題となる場合があります。
深いため息やその他のイライラの兆候などの言葉による合図を通じての不満。
解決策
高度な自然言語処理 (NLP) 技術を活用して、次のソリューションが実装されました。
データ収集
- 250 時間の音声データが方言別の割り当てに分割されます。
- アメリカ英語(30%または75時間)
- 英国英語(30%または75時間)
- オーストラリア英語(20%または50時間)
- インド英語(20%または50時間)
- 米国、英国、オーストラリア、インドのネイティブアクセントユーザー。
- さまざまなトーンを含む音声サンプル。音声の感情が「怒り」で、テキストの感情が「不満」または「非常に不満」である場合に特に重点を置いています。
テキスト分類/注釈
- 特定のカテゴリに基づいた感情と感情の注釈:
- オーディオエモーション: 幸せ、中立、怒り。
- 転写感情: 非常に不満、不満、どちらでもない、満足、非常に満足。
- 各オーディオ セグメントには、主要な感情が 1 つだけ含まれていました。
- 会話内に適用されたさまざまな遅延セグメント (2 ~ 30 秒)。
- 転写形式は、左と右のスピーカー情報、感情タグ、最終セグメント感情を含む JSON 出力に従いました。
品質管理
転写精度:
- 最低でも 250 時間の音声が配信されるようにしました。
- 90% の転写エラー率 (TER) 精度。
- 95% の単語認識率 (WER) 精度。
QAプロセス:
- データセットからランダムに選択されたサンプルの定期的な監査が実施されました。
- 自動化ツールを使用して、データセット全体の TER と WER を測定しました。
- フラグが付けられたセクションを手動で確認することで、精度のしきい値が満たされていることが確認されました。
アウトカム
トレーニング データは、自動化された感情および感情検出モデルの開発をサポートし、次のことを実現します。
- コールセンターのやり取りにおけるリアルタイムの感情検出。
- 皮肉や不満などの複雑なケースをより効果的に処理します。
- 将来のプロジェクトに対応できるスケーラビリティ。データ量の増加や言語の増加にも簡単に適応できます。
成果
- 250 時間のオーディオ ファイル (8 kHz PCM WAV 形式、モノラル)
- 文字起こしファイル(セグメンテーション、感情タグ、話者識別子付き)
- メタデータ(オーディオの長さ、スピーカーの詳細など)
コールセンター データ プロジェクトで Shaip と提携したことは、当社の AI ソリューションを前進させる上で極めて重要な瞬間でした。同社のチームは、米国、英国、オーストラリア、インドの 250 つの主要な英語方言にわたる XNUMX 時間の音声データを専門的に収集して注釈を付け、最高の品質と精度を確保しました。これらの地域の言語的ニュアンスに注意を払うことで、音声認識モデルの精度が大幅に向上しました。さらに、複雑なデータ注釈プロジェクトを扱う Shaip の専門知識は、信頼性が高く準拠したモデルを大規模に構築する上で役立っています。