会話型 AI: 自動音声認識
8 時間を超える音声が収集され、多言語音声テクノロジーのために 800 時間の文字起こしが行われました
概要
インドは、インドの言語でデジタル サービスを提供するために、多言語データセットと AI ベースの言語テクノロジー ソリューションの作成に重点を置いたプラットフォームを必要としていました。 この取り組みを開始するために、クライアントは Shaip と提携してインドの言語を収集し、書き写し、多言語音声モデルを構築しました。
音量
課題
クライアントのインド言語向け音声テクノロジー音声ロードマップを支援するために、チームは大量のトレーニング データを取得、セグメント化、転写して AI モデルを構築する必要がありました。 クライアントの重要な要件は次のとおりです。
データ収集
- インドの遠隔地から 8000 時間のトレーニング データを取得
- 20 ~ 70 歳の年齢層から自発音声を収集するサプライヤー
- 年齢、性別、教育、方言に応じて多様な話者の組み合わせを確保する
- 各オーディオ録音は、16 ビット/サンプルで少なくとも 16kHz でなければなりません。
データの文字起こし
文字と特殊記号、スペルと文法、大文字の使用、略語、短縮形、個々の音声文字、数字、句読点、頭字語と頭文字、流暢な音声、理解できない音声、対象外の言語、非音声に関する詳細な転写ガイドラインに従ってください。
品質チェックとフィードバック
すべての録音は品質評価と検証を受け、検証された音声録音のみが配信されます
ソリューション
会話型 AI についての深い理解により、当社はクライアントが専門収集家、言語学者、アノテーターのチームと協力して音声データを収集、転記し、インドの遠隔地から大規模な音声データのコーパスを構築するのを支援しました。
Shaip の作業範囲には、大量の音声トレーニング データの取得、データの文字起こし、メタデータを含む対応する JSON ファイルの配信 (話者と文字起こし者の両方) が含まれますが、これに限定されません。 各話者のメタデータには、匿名化された話者 ID、デバイスの詳細、性別、年齢、教育などの人口統計情報、PIN コード、社会経済的地位、話されている言語、生涯の滞在期間の記録が含まれます。 データには、文字起こし者ごとに、匿名化された文字起こし者 ID、話者と同様の人口統計の詳細、文字起こし経験期間、読み書きできる言語の詳細な内訳が組み込まれています。
シャイプが集められた 8000 数時間の音声データ / 複雑なプロジェクトの音声テクノロジーのトレーニングに必要な望ましいレベルの品質を維持しながら、800 時間に及ぶ大規模な自発音声を文字に起こします。 各参加者から明示的な同意フォームが取得されました。 収集された/自発的な音声は、大学が提供した画像に基づいています。 の 3500 イメージ、 1000 一般的であり、 2500 地域固有の文化、祭りなどに関連したものです。画像は駅、市場、天気などのさまざまな領域を表します。
データ収集
都道府県 | 地区 | オーディオ時間 | 転写 (時間) |
ビハール州 | サラン、東チャンパラン、ゴパルガンジ、シタマリ、サマスティプール、ダルバンガ、マデプラ、バーガルプール、ガヤ、キシャンガンジ、ヴァイシャリ、ラクサライ、サハルサ、スパウル、アラリア、ベグサライ、ジャハナバード、プルニア、ムザフィアルプール、ジャムイ | 2000 | 200 |
Uttarpradesh | デオリア、バラナシ、ゴーラクプル、ガージプール、ムッツァフィアルナガル、エタ、ハミルプール、ジョティバ プーレ ナガル、ブダウン、ジャラウン | 1000 | 100 |
ラジャスタン | ナウル、チュール | 200 | 20 |
ウッタラーカンド州 | テリ・ガルワル、ウッタルカシ | 200 | 20 |
チャッティースガル州 | ビラースプル、ライガル、カバーダム、サルグジャ、コルバ、ジャシュプル、ラジナンガオン、バルランプル、バスター、スクマ | 1000 | 100 |
西ベンガル | パシム メディニプール、マルダ、ジャルパイグリ、プルリア、コルカッタ、ジャルグラム、北 24 パルガナス、ダクシン ディナジプール | 800 | 80 |
ジャールカンド州 | サヘブガンジ、ジャムタラ | 200 | 20 |
AP | グントゥール、チットール、ヴィシャカパトナム、クリシュナ、アナンタプール、スリカクラム | 600 | 60 |
テランガーナ州 | カリムナガル、ナルゴンダ | 200 | 20 |
ゴア | 北+南ゴア | 100 | 10 |
カルナタカ | ダクシン カンナダ語、グルバルガ、ダルワド、ベラリ、マイソール、シモガ、ビジャプール、ベルガウム、ライチュール、チャムラジナガル | 1000 | 100 |
マハラシュトラ | シンドゥドゥルグ、ドゥーレ、ナーグプール、プネー、オーランガバード、チャンドルプール、ソラプール | 700 | 70 |
トータル | 8000 | 800 |
一般的なガイドライン
フォーマット
- 16 kHz、16 ビット/サンプルのオーディオ。
- シングルチャンネル。
- トランスコーディングなしの生のオーディオ。
形式
- 自発的なスピーチ。
- 大学提供の画像をもとに文章を作成しています。 3500 枚の画像のうち、1000 枚は一般的なもので、2500 枚は地域特有の文化、祭りなどに関連しています。画像は駅、市場、天気などのさまざまな領域を表しています。
録音の背景
- 静かでエコーのない環境で録音されました。
- 録画中にスマートフォンの妨害(振動や通知)が発生することはありません。
- クリッピングや遠方界効果などの歪みはありません。
- 携帯電話からの振動は許容できません。 音声がクリアであれば、外部振動は許容できます。
スピーカー仕様
- 年齢層は 20 ~ 70 歳で、地区ごとにバランスのとれた男女分布となっています。
- 各地区に最低 400 人のネイティブスピーカーがいる。
- 講演者は母国語/方言を使用する必要があります。
- 同意書は参加者全員に必須です。
品質チェックと重要な品質保証
QA プロセスでは、音声録音と文字起こしの品質保証が優先されます。 オーディオ標準は、正確な無音、セグメントの長さ、単一話者の明瞭さ、および年齢や社会経済的地位を含む詳細なメタデータに重点を置いています。 転写基準では、タグの正確性、単語の正確性、および正確な分節の詳細が重視されます。 受け入れベンチマークでは、オーディオ バッチの 20% 以上がこれらの基準を満たさない場合、そのバッチは拒否されると規定されています。 差異が 20% 未満の場合は、同様のプロファイルを使用して記録を置き換える必要があります。
データの文字起こし
文字起こしガイドラインでは、単語が明確で理解可能な場合にのみ、正確さと逐語的な文字起こしを重視します。 不明瞭な単語は、問題に基づいて [理解できない] または [聞き取れない] としてマークされます。 長い音声の文の境界は でマークされます。 、文法上の誤りの言い換えや修正は許可されません。 逐語的な転写では、エラー、スラング、繰り返しがカバーされますが、誤った始まり、つなぎ音、および途切れは省略されます。 背景と前景のノイズは説明的なタグで転写され、固有名、タイトル、番号は特定の転写ルールに従います。 話者ラベルは文ごとに使用され、不完全な文は で示されます。
プロジェクトのワークフロー
ワークフローでは、音声転写プロセスについて説明します。 それは、参加者のオンボーディングとトレーニングから始まります。 アプリを使用して音声を録音し、QA プラットフォームにアップロードします。 この音声は品質チェックと自動セグメント化を受けます。 次に、技術チームは文字起こし用のセグメントを準備します。 手動での文字起こしの後は、品質保証のステップがあります。 文字起こしはクライアントに配信され、受け入れられた場合、配信は完了したものとみなされます。 そうでない場合は、クライアントのフィードバックに基づいて修正が行われます。
結果
専門の言語学者からの高品質の音声データにより、クライアントは規定の時間内に、さまざまな方言を持つさまざまなインドの言語で多言語音声認識モデルを正確にトレーニングおよび構築できるようになります。 音声認識モデルは次の目的で使用できます。
- 国民を母国語での取り組みに結びつけることで、デジタル インクルージョンのための言語の壁を克服します。
- デジタルガバナンスの推進
- インドの言語でのサービスと製品のエコシステムを形成する触媒
- 公共の利益、特にガバナンスと政策の分野における、よりローカライズされたデジタル コンテンツ
私たちは会話型 AI 分野における Shaip の専門知識に畏敬の念を抱いています。 8000 の多様な地区にわたる 800 時間の文字起こしとともに 80 時間の音声データを処理するという作業は、控えめに言っても途方もないものでした。 このような挑戦的なプロジェクトの成功を可能にしたのは、この領域の複雑な詳細とニュアンスに対するシャイプの深い理解でした。 最高の品質を確保しながら、この膨大な量のデータの複雑さをシームレスに管理およびナビゲートする能力は、本当に賞賛に値します。