音楽AIのケーススタディ

歌声データ収集

EQ および圧縮アルゴリズムのトレーニングのための音声ベースの歌唱オーディオコレクション: 言語的および音楽的多様性を捉える

音声ベースの歌唱オーディオコレクション

プロジェクト概観

Shaip は大手テクノロジー企業と提携し、中国語、アラビア語、スペイン語、ロシア語の 4 つの優先言語にわたる多様な歌唱音声録音を収集しました。このプロジェクトの目的は、自動オーディオ処理の改善に不可欠な AI ベースの EQ および圧縮アルゴリズムのトレーニング用に、高品質のデータを提供することでした。

このコレクションには、さまざまなジャンルから 40 人の参加者 (言語ごとに 10 人) が参加し、多様なマイクと環境を使用したスタジオ品質の録音に重点が置かれました。

歌声集

主要統計

4の言語: 中国語、アラビア語、スペイン語、ロシア語

歌手10人 以下のために
言語(合計40)

20時間 of
歌声

オーディオ形式: 48 kHz PCM、モノラル、WAV

音声文字変換 母国語で

プロジェクト期間:
18·ウィークス

プロジェクト範囲

データ収集

対象範囲には、複数の音楽ジャンルにわたる実際のアーティストによって録音された、4 つの対象言語の歌唱音声の収集が含まれます。AI モデルのトレーニングに適した高品質の録音を確保するために、スタジオ環境が使用されました。

重要な要件

  • 参加者: 言語ごとに 10 人の歌手が出演し、男女比はバランスが取れています (男性 50%、女性 50%)。
  • ジャンル: アーティストが自ら特定したさまざまなジャンルの一貫性が検証されています。
  • 録音環境: 複数のマイク設定(ダイナミック、コンデンサー)を備えたスタジオ品質。
  • オーディオフォーマット: 48 kHz PCM、モノラル、WAV ファイル、処理なし (例: 圧縮、EQ、リバーブなし)。
  • 転写: 歌は歌われている言語で書き起こされますが、バイリンガルの歌には特別なルールが適用されます。
  • 言語: 中国語、アラビア語、スペイン語、ロシア語
  • 転写
    • 書き起こしは録音言語で提供される必要があります (例: ヒンディー語の行はデーヴァナーガリー文字で、その後に英語が続く)。
    • 明瞭性と正確性を保つために、各セグメントの長さが 15 秒を超えないようにしてください。
  • オーディオ録音の要件
    • 録音セッションごとに最低 3 つのマイク設定。
    • 3 曲あたり 3 分、XNUMX 曲あたり XNUMX テイクで、参加者ごとに異なるマイク録音が行われます。
    • バックグラウンドノイズのないスタジオ品質の音響環境。

課題

参加者の多様性

性別、声のトーン/ピッチ、音楽のジャンルごとに歌手をバランスよく配分することは、複雑な課題でした。

データの一貫性

複数の言語で多様なボーカルパフォーマンスをキャプチャしながら、一貫したマイクの設定と環境を維持します。

オーディオ品質管理

外部ノイズのないスタジオ品質のオーディオと、複数の言語での正確な文字起こしを保証します。

解決策

Shaip は、次の方法でプロジェクトの要件を満たす包括的なソリューションを提供しました。

  • 40 つの言語で XNUMX 人の歌手を募集し、性別、音程、音楽スタイルの多様性を確保します。
  • さまざまなタイプのマイク (ダイナミック、コンデンサー) を使用してスタジオ品質の録音を行い、幅広いオーディオ データをキャプチャします。
  • バイリンガルソングの特定のルールに従って、録音を使用言語で正確に書き起こします。
  • 同意: 録画前にすべての参加者から同意書を収集します。

結果

収集された多様な歌唱音声データにより、クライアントは自動 EQ および圧縮アルゴリズム用の堅牢なトレーニング セットを開発し、音声処理の品質を向上させることができました。高品質の録音と詳細なメタデータにより、AI モデルはさまざまな音楽ジャンルや言語の複雑さに対応できるようになりました。主な成果:

  • AI システムをトレーニングするための高品質で多様なオーディオ データ。
  • 分析のための正確な転写とメタデータ。
  • AI ベースのオーディオ処理ツールのためのより強力な基盤。

成果

  • 20 時間のスタジオ品質のオーディオ録音 (48 kHz PCM、モノラル WAV ファイル)。
  • 録音言語での書き起こし。
  • メタデータ: マイクのメーカー/モデル、DAC/オーディオ インターフェイス、歌手のプロフィール、ジャンル情報。
  • メタデータ付きの転写用の JSON 形式。

Shaip の音楽的才能の多様性と言語的豊かさを捉える能力は、当社の EQ および圧縮アルゴリズムの開発に非常に役立っています。Shaip のチームは、アーティストの採用から録音品質まで、あらゆる側面が正確に処理されるようにし、当社の自動オーディオ処理システムを改良する上で不可欠なステップとなりました。

プロセス全体を通してシャイプが示してくれた信頼と協力に心から感謝しています。当社の厳格で難しい技術要件にもかかわらず、彼らの献身、勤勉さ、細部への配慮は際立っていました。卓越した成果を出すことに熱心なチームと一緒に仕事ができてうれしかったです。

ゴールデン 5 つ星