ケーススタディ:会話型AI

3 つのインド言語で ASR を構築するために、8 時間以上のデータを収集、セグメント化、転記しました。

会話型AI

政府は、バシニ プロジェクトを通じて国民が母国語でインターネットやデジタル サービスに簡単にアクセスできるようにすることを目指しています。

インドの AI 主導言語翻訳プラットフォームである BHASHINI は、デジタル インディア イニシアチブの重要な部分です。

Bbashini プラットフォームは、人工知能 (AI) および自然言語処理 (NLP) ツールを MSME、新興企業、独立系イノベーターに提供するように設計されており、公共リソースとして機能します。 その目標は、インド国民が母国語で国のデジタルイニシアティブと対話できるようにすることで、デジタル インクルージョンを促進することです。

さらに、インドの言語によるインターネット コンテンツの利用可能性を大幅に拡大することを目指しています。 これは特に、ガバナンスや政策、科学技術などの公益分野を対象としています。その結果、国民が母国語でインターネットを使用するよう奨励され、国民の積極的な参加が促進されます。

実世界のソリューション

データによるローカリゼーションの力を解き放つ

インドでは、インド語によるデジタルサービスを提供するために、多言語データセットとAIベースの言語技術ソリューションの作成に特化したプラットフォームが必要でした。この取り組みを開始するにあたり、インド工科大学マドラス校(IITマドラス)はShaipと提携し、インド語データセットの収集、セグメント化、文字起こしを行い、多言語音声モデルを構築しました。

チャレンジ

クライアントのインド言語向け音声テクノロジー音声ロードマップを支援するために、チームは大量のトレーニング データを取得、セグメント化、転写して AI モデルを構築する必要がありました。 クライアントの重要な要件は次のとおりです。

データ収集

  • インドの 3000 言語 (言語ごとに 8 つの方言) で 4 時間のトレーニング データを取得します。
  • サプライヤーは言語ごとに即時音声を収集し、
    18 ~ 60 歳の年齢層による会話的なスピーチ
  • 年齢、性別、教育、方言ごとに多様な話者が混在するようにする
  • 仕様に従って、録音環境の多様な組み合わせを確保します。
  • 各オーディオ録音は、少なくとも 16kHz、できれば 44kHz でなければなりません

データセグメンテーション

  • 15 秒の音声セグメントを作成し、特定の話者、音の種類 (スピーチ、せせらぎ、音楽、騒音)、会話のターン、発話、およびフレーズごとに音声にミリ秒単位のタイムスタンプを付けます。
  • 開始と終了に 200 ~ 400 ミリ秒のパディングを付けて、ターゲットのサウンド信号の各セグメントを作成します。
  • すべてのセグメントについて、開始時間、終了時間、セグメント ID、ラウドネス レベル、サウンド タイプ、言語コード、スピーカー ID などのオブジェクトを入力する必要があります。

データの文字起こし

  • 文字と特殊記号、スペルと文法、大文字の使用、略語、短縮形、個々の音声文字、数字、句読点、頭字語、流暢な音声、音声、理解できない音声、対象外の言語、音声以外の音声などに関する詳細な転写ガイドラインに従ってください。

品質チェックとフィードバック

  • すべての録音は品質評価と検証を受け、検証された音声のみが配信されます

解決策

会話型 AI に関する深い理解を活かし、専門の収集者、言語学者、注釈者からなるチームと連携してクライアントのデータ収集、セグメント化、転記を支援し、8 つのインド言語で大規模な音声データセット コーパスを構築しました。

Shaip の作業範囲には、大量のオーディオ トレーニング データの取得、オーディオ録音の複数へのセグメント化、データの転記、メタデータ (話者 ID、年齢、性別、言語、方言、母国語、資格、職業、ドメイン、ファイル形式、周波数、チャンネル、オーディオの種類、話者数、外国語数、使用するセットアップ、ナローバンドまたはワイドバンド オーディオなど) を含む対応する JSON ファイルの配信などが含まれますが、これに限定されません。

Shaip は、複雑なプロジェクトの音声技術をトレーニングするために必要な品質レベルを維持しながら、3000 時間の音声データを大規模に収集しました。 各参加者から明示的な同意フォームが取得されました。

1。 データ収集

2. データのセグメント化

  • 収集された音声データは、さらに 15 秒ごとの音声セグメントに分割され、会話内の各話者、音声の種類、ターン、発話、フレーズごとにミリ秒単位のタイムスタンプが付けられました。
  • サウンド信号の開始と終了に 200 ~ 400 ミリ秒のパディングを使用して、ターゲットのサウンド信号の各セグメントを作成しました。
  • すべてのセグメントについて、次のオブジェクトが存在し、入力されています。つまり、開始時間、終了時間、セグメント ID、ラウドネス レベル (大声、標準、静か)、主サウンド タイプ (スピーチ、せせらぎ、音楽、ノイズ、オーバーラップ)、言語コード スピーカー ID、文字起こしなどです。

3. 品質チェックとフィードバック

  • すべての録音の品質が評価され、WER 90%、TER 90% の検証済み音声録音のみが配信されました。
  • 品質チェックリストに従ってください:
    » 最大 15 秒のセグメント長
    » 特定のドメインからの文字起こし: 天気、さまざまな種類のニュース、健康、農業、教育、仕事、金融
    » 低バックグラウンドノイズ
    » オーディオクリップなし – 歪みなし
    » 文字起こしのための正しい音声セグメンテーション

4. データの転記

ためらい、つなぎ言葉、間違った話し始め、その他の言葉のチックを含むすべての話し言葉が、文字起こしに正確にキャプチャされました。 また、大文字と小文字、スペル、大文字の使用、略語、短縮形、数字などの詳細な転写ガイドラインに従いました。
句読点、頭字語、流暢なスピーチ、非スピーチノイズなど。さらに、収集と転写のワークフローは次のとおりです。

結果

専門言語学者からの高品質の音声データにより、インド工科大学マドラス校は、規定の時間内に方言の異なる 8 つのインドの言語で多言語音声認識モデルを正確にトレーニングおよび構築できるようになります。 音声認識モデルは次の目的で使用できます。

  • 国民を母国語での取り組みに結びつけることで、デジタル インクルージョンのための言語の壁を克服します。
  • デジタルガバナンスの推進
  • インドの言語でのサービスと製品のエコシステムを形成する触媒
  • 公共の利益、特にガバナンスと政策の分野における、よりローカライズされたデジタル コンテンツ
見積もりアイコン

私たちは、会話型AI分野におけるShaip社の専門知識に感銘を受けました。厳しい納期とガイドラインの中で、8言語の専門言語学者から必要なトレーニングデータを調達、セグメンテーション、文字起こし、納品するなど、プロジェクト全体の実行能力が高く、しかも許容できる品質基準を維持していました。

★★★★★
見積もりアイコン

次のAIイニシアチブをどのように支援できるか教えてください。