インドのように文化的多様性と言語的豊かさに富んだ国では、包括的なAIの構築は、代表的で高品質なデータセットの収集から始まります。それが私たちのビジョンです。 プロジェクト・ヴァーニ—大規模なオープンソースイニシアチブを主導する アートパーク, IISc ベンガルール, グーグルインドのあらゆる言語と方言に声を与えることを目指しています。
野心的な目標?集める 150,000万時間以上のスピーチ の三脚と 15,000時間以上の書き起こし from 1万人 越えて 773地区 インドの。
この国家ミッションの主要ベンダーの1つとして、 シャイプ 自発的な音声データ、文字起こし、メタデータ収集のキュレーションにおいて重要な役割を果たし、真のインドを表現する公平な音声技術の基盤を築きました。
プロジェクト Vaani の背後にあるビジョン
プロジェクトVaaniは、AIの包摂ギャップを埋めるために設計されており、 最大のマルチモーダル、多言語、オープンソースデータセット インドにおいて。このデータは、インドの母国語における正確な音声認識、翻訳、生成AIシステムの開発の基盤となります。これらの言語の多くは、世界のテクノロジーエコシステムにおいて十分に活用されていません。
長期的なビジョンは、次のような分野で影響力のあるアプリケーションを強化することです。
- 健康 – 音声ベースの遠隔医療
- 学位 – 方言学習プラットフォーム
- ガバナンス – 市民サービスのための会話型インターフェース
- ユーザー補助 – 障害のあるユーザー向けの音声ツール
- 災害対応 – 方言でのリアルタイムコミュニケーション
Shaipがインド最大のオープンソース音声データセット「Project Vaani」の構築にどのように貢献したか
シャイプは、 8,000時間の自発的なスピーチ の三脚と 800時間分の手作業で検証された転写私たちの責任範囲は、講演者のオンボーディング、音声キャプチャ、メタデータのタグ付け、文字起こしの調整、品質管理に及びました。
8,000時間 自発的な音声データ
録音元 地区ごとに400人以上のネイティブスピーカー、 多様な年齢層、性別、方言を代表する
80地区、 カバー
画像ベースのプロンプトで確認 自然な文脈的な会話
私たちのアプローチがユニークな理由は次のとおりです。
地区レベルの多様性
ビハール州、ウッタル・プラデーシュ州、カルナータカ州、西ベンガル州、マハラシュトラ州などの州にまたがる80の地区から録音を調達しました。各地区から100時間分の音声データが提供され、地域間のバランスが保たれました。ネイティブスピーカーを起用することで、主流のAIデータセットでは見落とされがちな地域特有のアクセントや方言も正確に再現できるようになりました。
言語的および人口統計的表現
ビハール州、ウッタル・プラデーシュ州、カルナータカ州、西ベンガル州、マハラシュトラ州などの州にまたがる80の地区から録音を調達しました。各地区から100時間分の音声データが提供され、地域間のバランスが保たれました。ネイティブスピーカーを起用することで、主流のAIデータセットでは見落とされがちな地域特有のアクセントや方言も正確に再現できるようになりました。
画像誘導音声
自発的で自然な語彙を刺激するため、参加者には45セッションにつき90~XNUMX枚の画像を見せ、それらを説明するよう指示しました。参加者は、文化的シンボルから日常的な物まで、多様な画像を用いて、母語で自然で自発的な反応を引き出すよう促されました。これにより、録音は現実世界の文脈に沿った音声を反映するものとなり、高度なNLPシステムの学習に不可欠な要素となりました。
高品質の転写基準
音声データのわずか10%、つまり800時間分の文字起こしが行われました。文字起こしは、話者から半径20~50km圏内の現地言語学者によって行われ、方言やニュアンスへの精通が確保されました。第5層チェックにより、単語誤り率(WER)はXNUMX%未満でした。
厳格な品質保証
音声データは、背景ノイズ、エコー、電話の振動、歪みなど、高い基準を満たす必要がありました。音声は静かでエコーのない環境で録音されました。ファイルは、音声の明瞭度、ノイズレベル、メタデータの正確性、話者検証に関するガイドラインを満たすよう、厳格な審査を受けました。メタデータのタグ付けはすべてのファイルで正確である必要があり、すべての録音において話者と場所の一致がチェックされました。
解決した課題
- 遠隔物流 – 80地区にわたるチームの管理
- 話者の多様性 – 遠隔地で32,000人以上の認証済みスピーカーをオンボーディング
- 文化的感受性 – 地元の習慣や方言を尊重する
- データの整合性 – 品質とコンプライアンス基準を満たす
- 品質管理 – 複数の言語的・文化的文脈を越えて
私たちの成功は、綿密な計画、テクノロジー主導の検証、そして各地域の文化的ニュアンスを理解している現地チームとのパートナーシップによって実現しました。
影響と応用
シャイプ氏の貢献は、Project Vaaniの進捗を加速させただけでなく、インドにおけるインクルーシブAIの基盤を築きました。キュレーションされた音声データセットは、既に以下のAIモデルの構築と微調整に活用されています。
- 方言の音声アシスタント
- 地域翻訳エンジン
- 視覚障害者のためのアクセシブルなコミュニケーションツール
- 地方の学生向けのAI駆動型EdTechプラットフォーム
- 農村遠隔医療
- 音声ベースの市民サービス
- リアルタイム翻訳と文字起こし
結論
Project Vaani は、包括的でアクセス可能な AI に向けた大胆な一歩であり、Shaip 氏はその基礎を担えることを光栄に思っています。 Shaip 氏の Project Vaani での取り組みは、多様性と表現に根ざした倫理的で包括的な AI システムを構築するという当社の取り組みを再確認するものです。 8,000 時間を超える音声が収集され、800 時間が書き起こされ、私たちはインドで最も先見性のあるデジタル インクルージョン プロジェクトの XNUMX つに参加できたことを誇りに思っています。
Project Vaani が 150,000 時間以上のデータという大きな目標に向かって進むにつれ、私たちはすべてのインド人に訴えかける AI イノベーションの次のフロンティアをサポートする準備ができています。
私たちと提携して、現実世界を理解する AI を構築してみませんか? www.shaip.com