ケーススタディ:会話型AI

インドの 3 つの言語で ASR を構築するために、8 時間を超えるデータが収集、セグメント化、転記されました。

発話コレクション
政府は、バシニ プロジェクトを通じて国民が母国語でインターネットやデジタル サービスに簡単にアクセスできるようにすることを目指しています。

インドの AI 主導言語翻訳プラットフォームである BHASHINI は、デジタル インディア イニシアチブの重要な部分です。

Bbashini プラットフォームは、人工知能 (AI) および自然言語処理 (NLP) ツールを MSME、新興企業、独立系イノベーターに提供するように設計されており、公共リソースとして機能します。 その目標は、インド国民が母国語で国のデジタルイニシアティブと対話できるようにすることで、デジタル インクルージョンを促進することです。

さらに、インドの言語によるインターネット コンテンツの利用可能性を大幅に拡大することを目指しています。 これは特に、ガバナンスや政策、科学技術などの公益分野を対象としています。その結果、国民が母国語でインターネットを使用するよう奨励され、国民の積極的な参加が促進されます。

NLP を活用して、言語の壁を越えて貢献者、パートナー団体、市民の多様なエコシステムを実現し、デジタル インクルージョンとエンパワーメントを確保します。

実世界のソリューション

データによるローカリゼーションの力を解き放つ

インドは、インドの言語でデジタル サービスを提供するために、多言語データセットと AI ベースの言語テクノロジー ソリューションの作成に重点を置くプラットフォームを必要としていました。 この取り組みを開始するために、インド工科大学マドラス校 (IIT マドラス) は Shaip と提携して、インド言語データセットを収集、セグメント化、転写して多言語音声モデルを構築しました。

課題

クライアントのインド言語向け音声テクノロジー音声ロードマップを支援するために、チームは大量のトレーニング データを取得、セグメント化、転写して AI モデルを構築する必要がありました。 クライアントの重要な要件は次のとおりです。

データ収集

  • インドの 3000 言語 (言語ごとに 8 つの方言) で 4 時間のトレーニング データを取得します。
  • サプライヤーは言語ごとに即時音声を収集し、
    18 ~ 60 歳の年齢層による会話的なスピーチ
  • 年齢、性別、教育、方言ごとに多様な話者が混在するようにする
  • 仕様に従って、録音環境の多様な組み合わせを確保します。
  • 各オーディオ録音は、少なくとも 16kHz、できれば 44kHz でなければなりません

データセグメンテーション

  • 15 秒の音声セグメントを作成し、特定の話者、音の種類 (スピーチ、せせらぎ、音楽、騒音)、会話のターン、発話、およびフレーズごとに音声にミリ秒単位のタイムスタンプを付けます。
  • 開始と終了に 200 ~ 400 ミリ秒のパディングを付けて、ターゲットのサウンド信号の各セグメントを作成します。
  • すべてのセグメントについて、開始時間、終了時間、セグメント ID、ラウドネス レベル、サウンド タイプ、言語コード、スピーカー ID などのオブジェクトを入力する必要があります。

データの文字起こし

  • 文字と特殊記号、スペルと文法、大文字の使用、略語、短縮形、個々の音声文字、数字、句読点、頭字語、流暢な音声、音声、理解できない音声、対象外の言語、音声以外の音声などに関する詳細な転写ガイドラインに従ってください。

品質チェックとフィードバック

  • すべての録音は品質評価と検証を受け、検証された音声のみが配信されます

ソリューション

会話型 AI についての深い理解に基づいて、当社はクライアントが専門収集家、言語学者、アノテーターのチームと協力してデータの収集、セグメント化、転記を支援し、8 つのインド言語で音声データセットの大規模なコーパスを構築しました。

Shaip の作業範囲には、大量の音声トレーニング データの取得、音声録音の複数のセグメント化、データの文字起こし、メタデータ [SpeakerID、年齢、性別、言語、方言、
母国語、資格、職業、ドメイン、ファイル形式、周波数、チャンネル、音声の種類、話者の数、外国語の数、使用するセットアップ、狭帯域または広帯域の音声など]。 

Shaip は、複雑なプロジェクトの音声技術をトレーニングするために必要な品質レベルを維持しながら、3000 時間の音声データを大規模に収集しました。 各参加者から明示的な同意フォームが取得されました。

1。 データ収集

2. データのセグメント化

  • 収集された音声データはさらに、それぞれ 15 秒の音声セグメントに分割され、会話内の特定の話者、音の種類、ターン、発話、およびフレーズごとにミリ秒単位のタイムスタンプが付けられました。
  • サウンド信号の開始と終了に 200 ~ 400 ミリ秒のパディングを使用して、ターゲットのサウンド信号の各セグメントを作成しました。
  • すべてのセグメントについて、次のオブジェクトが存在し、入力されています。つまり、開始時間、終了時間、セグメント ID、ラウドネス レベル (大声、標準、静か)、主サウンド タイプ (スピーチ、せせらぎ、音楽、ノイズ、オーバーラップ)、言語コード スピーカー ID、文字起こしなどです。

3. 品質チェックとフィードバック

  • すべての録音の品質が評価され、WER 90%、TER 90% の検証済み音声録音のみが配信されました。
  • 品質チェックリストに従ってください:
       » 最大 15 秒のセグメント長
       » 特定のドメインからの文字起こし: 天気、さまざまな種類のニュース、健康、農業、教育、仕事、金融
       » 低バックグラウンドノイズ
       » オーディオクリップなし – 歪みなし
       » 文字起こしのための正しい音声セグメンテーション

4. データの転記
ためらい、つなぎ言葉、間違った話し始め、その他の言葉のチックを含むすべての話し言葉が、文字起こしに正確にキャプチャされました。 また、大文字と小文字、スペル、大文字の使用、略語、短縮形、数字などの詳細な転写ガイドラインに従いました。
句読点、頭字語、流暢なスピーチ、非スピーチノイズなど。さらに、収集と転写のワークフローは次のとおりです。