中国のデータセット

简体中文データ集

AIおよび音声モデル向けの高品質中国語データセット

概要

タイトル(言語)

中国語データセット

データセットの種類

コールセンター、音楽、台本付きモノローグ、メディアデータ(ポッドキャストデータ)

China

詳細説明

このデータセットには、台本のない合成エージェントと顧客の電話での会話(5〜15分)、自然な人間同士の電話での会話(15〜60分)、および書き起こし付きの歌の音声が含まれており、音声および言語技術のトレーニングと評価のための多様な音声データを提供します。

Use Case

ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング

データセットの詳細

言語 データセットのタイプ サンプリング・レート スピーカー チャネル 合計時間 講演者の総数
中国の歌 音楽 48kHz シングルスピーカー Mono 06:11:32 10
中国語(繁体字) スクリプト化された独白 48kHz シングルスピーカー Mono 1,499:00:00 1,805
中国語訛りの英語 メディアデータ 16kHz 複数のスピーカー Mono 306:04:58 2,130
中国語(簡体字) スクリプト化された独白 48kHz シングルスピーカー Mono 2,761:00:00 3,725
中国語(アメリカ英語) センターに電話 8kHz 2スピーカー デュアル 152:18:33 2,058
中国語(アメリカ英語) メディアデータ 16kHz 複数のスピーカー Mono 245:55:15 468

注目のクライアント

チームが世界をリードするAI製品を構築できるようにします。

Shaip お問い合わせ

探しているものが見つかりませんか?

新しい既製のデータセットがすべてのデータ タイプにわたって収集されています

オーディオ/スピーチトレーニングデータ収集の心配を手放すために今すぐお問い合わせください

  • このフィールドは、検証目的のためであり、不変のままにする必要があります。
  • 登録することで、Shaipに同意します 利用規約 | プライバシーポリシー の三脚と 利用規約 ShaipからB2Bマーケティングコミュニケーションを受け取ることに同意します。