中国のデータセット
简体中文データ集
AIおよび音声モデル向けの高品質中国語データセット
概要
タイトル(言語)
中国語データセット
データセットの種類
コールセンター、音楽、台本付きモノローグ、メディアデータ(ポッドキャストデータ)
国
China
詳細説明
このデータセットには、台本のない合成エージェントと顧客の電話での会話(5〜15分)、自然な人間同士の電話での会話(15〜60分)、および書き起こし付きの歌の音声が含まれており、音声および言語技術のトレーニングと評価のための多様な音声データを提供します。
Use Case
ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
データセットの詳細
| 言語 | データセットのタイプ | サンプリング・レート | スピーカー | チャネル | 合計時間 | 講演者の総数 |
|---|---|---|---|---|---|---|
| 中国の歌 | 音楽 | 48kHz | シングルスピーカー | Mono | 06:11:32 | 10 |
| 中国語(繁体字) | スクリプト化された独白 | 48kHz | シングルスピーカー | Mono | 1,499:00:00 | 1,805 |
| 中国語訛りの英語 | メディアデータ | 16kHz | 複数のスピーカー | Mono | 306:04:58 | 2,130 |
| 中国語(簡体字) | スクリプト化された独白 | 48kHz | シングルスピーカー | Mono | 2,761:00:00 | 3,725 |
| 中国語(アメリカ英語) | センターに電話 | 8kHz | 2スピーカー | デュアル | 152:18:33 | 2,058 |
| 中国語(アメリカ英語) | メディアデータ | 16kHz | 複数のスピーカー | Mono | 245:55:15 | 468 |
注目のクライアント
チームが世界をリードするAI製品を構築できるようにします。
探しているものが見つかりませんか?
新しい既製のデータセットがすべてのデータ タイプにわたって収集されています
オーディオ/スピーチトレーニングデータ収集の心配を手放すために今すぐお問い合わせください