会話型AIモデルをトレーニングするための高品質の音声/音声/音声データセット 

自動音声認識(ASR)モデルをすぐに開始するための、複数の言語の既製の音声/音声/音声データセット

音声データセット

今日見逃していたオーディオデータカタログをプラグインする

お問い合わせ内容言語データセットサンプリング速度データセットのタイプ合計オーディオ時間短い説明データセットの説明音声チャンネルレコーディングプラットフォームWER(%)オーディオ形式音声文字変換フォーマットUse Caseスピーカーの数CTA
スピーチen_US_CC_8アフリカ系アメリカ人の言語アフリカ系アメリカ人の言語en_US8kHzコールセンター211アフリカ系アメリカ人の言葉によるコールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:612名、男性:1242名、不明:12名
スピーチen_US_MA_16アフリカ系アメリカ人の言語アフリカ系アメリカ人の言語en_US16kHzメディアオーディオ154アフリカ系アメリカ人の言語メディア データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:151名、男性:150名、不明:10名
スピーチアフリカーンス_GC_8アフリカーンス語アフリカーンス語af_ZA8kHz一般的な会話368アフリカーンス語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、アフリカーンス語はアフリカで話されていますデュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:502名、男性:390名、不明:2名
スピーチアフリカーンス_MA_16アフリカーンス語アフリカーンス語af_ZA16kHzメディアオーディオ658アフリカーンス語のメディア ファイルインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:750名、男性:1278名、不明:52名
スピーチアラビア語_GC_8アラビア語アラビア語ar_AE8kHz一般的な会話292アラビア語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、湾岸諸国からのアラビア語デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:171名、男性:534名、不明:1名
スピーチアラビア語_SM_48アラビア語アラビア語ar-SA48kHzスクリプト化された独白1,947アラビア語スクリプトの独白5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 838 男性 1209 不明 78
スピーチアッサム_CC_8アッサム語アッサム(パイプライン中) as_INコールセンター60アッサム(パイプライン中)コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチアッサムGCアッサム語アッサム(パイプライン中) as_IN一般的な会話100アッサム語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチアッサム_MAアッサム語アッサム(パイプライン中) as_INメディアオーディオ40アッサム (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチベンガル_CC_8ベンガル語ベンガル語 (パイプライン中) bn_INコールセンター60ベンガル語 (パイプライン中) コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチベンガル_GCベンガル語ベンガル語 (パイプライン中) bn_IN一般的な会話100ベンガル語 (パイプライン中) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチベンガル語_MAベンガル語ベンガル語 (パイプライン中) bn_INメディアオーディオ40ベンガル語 (パイプライン中) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチボストン_CC_8ボストン英語ボストン英語en_US8kHzコールセンター177ボストン コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:605名、男性:711名、不明:0名
スピーチボストン_GC_8ボストン英語ボストン英語en_US8kHz一般的な会話32ボストン一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:53名、男性:83名、不明:0名
スピーチボストン_MA_16ボストン英語ボストン英語en_US16kHzメディアオーディオ93ボストン・メディアの音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:43名、男性:181名、不明:2名
スピーチCanadian_SM_48カナダのフランス語カナダのフランス語FR-CA48kHzスクリプト化された独白1,222カナダのフランス語5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 974 男性 631 不明 1
スピーチ中国語_CC_8中国語英語中国語英語en_US8kHzコールセンター169中国のコールセンターデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:1790、男性:523、不明:13
スピーチChinese_MA_16中国語英語中国語英語en_US16kHzメディアオーディオ249中国メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:126、男性:346、不明:6
スピーチ簡体字中国語_SM_48簡体字中国語簡体字中国語ZH-CN48kHzスクリプト化された独白2,762簡体字中国語5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1920 男性 1535 不明 270
スピーチ繁体字中国語_SM_48中国語(繁体字)中国語(繁体字)zh-TW48kHzスクリプト化された独白1,028中国語(繁体字)5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1069 男性 262 不明 3
スピーチDanish_GC_8デンマーク語デンマーク語da_DK8kHz一般的な会話372デンマーク語一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:311名、男性:417名、不明:0名
スピーチデンマーク語_MA_16デンマーク語デンマーク語da_DK16kHzメディアオーディオ664デンマークのメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:369名、男性:864名、不明:27名
スピーチDanish_SM_48デンマーク語デンマーク語DA-DK48kHzスクリプト化された独白2,579デンマーク語の台本付きモノローグデンマークのデンマーク語で、5〜30秒の範囲に収まる傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1551 男性 1233 不明 42
スピーチ英語ディープサウス_CC_8イングリッシュディープサウスイングリッシュディープサウスen_US8kHzコールセンター151English Deep South コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 221 、男性 1004 、不明 7
スピーチ英語ディープサウス_GC_8イングリッシュディープサウスイングリッシュディープサウスen_US8kHz一般的な会話56英語ディープサウス一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性99、男性31、不明0
スピーチ英語ディープサウス_MA_16イングリッシュディープサウスイングリッシュディープサウスen_US16kHzメディアオーディオ266英語のディープ サウス メディアの音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性204、男性356、不明21
スピーチGerman_CC_8ドイツ語ドイツ語デデ8kHzコールセンター64ドイツのコールセンター データ 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、モノデスクトップwavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 478 男性 1440 不明 0
スピーチGerman_IVR_8ドイツ語ドイツ語デデ8kHz IVR200ドイツの IVR データヒューマン トゥ マシン。 TTS プロンプト (「ご用件はありますか」など) の後に人間の自発的な応答が続く IVR タイプのフローモノデスクトップwavファイル .jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング 女性 10115 男性 8750 不明 0
スピーチグジャラート_CC_8グジャラート語グジャラート語 (パイプライン中) gu_INコールセンター60グジャラート語 (パイプライン中) コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチグジャラート語_GCグジャラート語グジャラート語 (パイプライン中) gu_IN一般的な会話100グジャラート語 (パイプライン中) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチGujarati_MAグジャラート語グジャラート語 (パイプライン中) gu_INメディアオーディオ40グジャラート語 (パイプライン中) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチヘブライ語_一般会話_8ヘブライ語ヘブライ語he_IL8kHz一般的な会話399ヘブライ語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、イスラエルのヘブライ語デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性414名、男性399名、不明1名
スピーチヘブライ語_MA_16ヘブライ語ヘブライ語he_IL16kHzメディアオーディオ427ヘブライ語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性361名、男性513名、不明13名
スピーチHindi_MA_16ヒンディー語ヒンディー語こんにちは16kHzメディアオーディオ219ヒンディー語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性83名、男性309名、不明0名
スピーチHindi_SM_48ヒンディー語ヒンディー語ハイイン48kHzスクリプト化された独白2,867ヒンディー語スクリプトのモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1977 男性 1864 不明 147
スピーチHINGLISH_CC_8ヒングリッシュヒングリッシュhg_IN8kHzコールセンター208HINGLISH コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 822、男性 1262 、不明 0
スピーチHINGLISH_MA_16ヒングリッシュヒングリッシュhg_IN16kHzメディアオーディオ216HINGLISH メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性75、男性380、不明0
スピーチHispanic_CC_8ヒスパニック英語ヒスパニック英語en_US8kHzコールセンター212ヒスパニック系コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性822、男性1262、不明0
スピーチHispanic_MA_16ヒスパニック英語ヒスパニック英語en_US16kHzメディアオーディオ155ヒスパニック コール メディア オーディオインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性140、男性219、不明5
スピーチインドネシア語_GC_8インドネシア語インドネシア語やった8kHz一般的な会話496インドネシア語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、インドネシア語デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性524、男性454、不明2
スピーチインドネシア語_MA_16インドネシア語インドネシア語やった16kHzメディアオーディオ643インドネシアのメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性746、男性1507、不明129
スピーチアイリッシュ_GC_8アイリッシュアイリッシュen_IE8kHz一般的な会話192アイルランド一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 213 、男性 153 、不明 0
スピーチ日本語_SM_48日本語日本語JA-JP48kHzスクリプト化された独白2,335日本語台本のモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1460 男性 1221 不明 194
スピーチカンナダ語_CC_8カンナダ語カンナダ語 (パイプライン) kn_INコールセンター60カンナダ語 (パイプライン) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチKannada_GCカンナダ語カンナダ語 (パイプライン) kn_IN一般的な会話100カンナダ語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチKannada_MAカンナダ語カンナダ語 (パイプライン) kn_INメディアオーディオ40カンナダ語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチ韓国語_CC_8韓国語韓国語ko_KR8kHzコールセンター107韓国コールセンターデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性1086名、男性210名、不明4名
スピーチKorean_MA_16韓国語韓国語ko_KR16kHzメディアオーディオ204韓国メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性70名 男性303名 不明25名
スピーチKorean_SM_48韓国語韓国語ko-KR48kHzスクリプト化された独白1,955韓国語台本のモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1195 男性 1134 不明 122
スピーチマレー_GC_8マレー語マレー語ms_MY8kHz一般的な会話266マレー語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、マレーシアのマレー語デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 316 、男性 176 、不明 0
スピーチマレー_MA_16マレー語マレー語ms_MY16kHzメディアオーディオ344マレー語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性236、男性626、不明47
スピーチMalayalam_CC_8マラヤーラム語マラヤーラム語 (パイプライン中) ml_INコールセンター60マラヤーラム語 (パイプライン中) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチMalayalam_GCマラヤーラム語マラヤーラム語 (パイプライン中) ml_IN一般的な会話100マラヤーラム語 (パイプライン中) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチMalayalam_MAマラヤーラム語マラヤーラム語 (パイプライン中) ml_INメディアオーディオ40マラヤーラム語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチマラーティー語_CC_8マラーティー語マラーティー語 (パイプライン中) mr_INコールセンター60マラーティー語 (パイプライン中) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチマラーティー語_GCマラーティー語マラーティー語 (パイプライン中) mr_IN一般的な会話100マラーティー語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチマラーティ_MAマラーティー語マラーティー語 (パイプライン中) mr_INメディアオーディオ40マラーティー語 (パイプライン内) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチメキシカン_SM_48スペイン語(メキシコ)スペイン語(メキシコ)ES-MX48kHzスクリプト化された独白1,492メキシコのスペイン語の台本によるモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1016 男性 1069 不明 95
スピーチオランダ_SM_48オランダ語オランダ語NL-NL48kHzスクリプト化された独白1,205オランダ語の台本による独白5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1285 男性 531 不明 3
スピーチニューヨーク英語_CC_8ニューヨーク英語ニューヨーク英語en_US8kHzコールセンター103ニューヨーク英語コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 610、男性 532、不明 0
スピーチニューヨーク英語_GC_8ニューヨーク英語ニューヨーク英語en_US8kHz一般的な会話107ニューヨーク英語一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性118、男性114、不明0
スピーチニューヨーク英語_MA_16ニューヨーク英語ニューヨーク英語en_US16kHzメディアオーディオ140ニューヨーク英語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性66、男性230、不明11
スピーチニュージーランド_GC_8ニュージーランド英語 ニュージーランド英語 en_NZ8kHz一般的な会話148ニュージーランド英語一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性167名、男性121名、不明4名
スピーチニュージーランド_MA_16ニュージーランド英語 ニュージーランド英語 en_NZ16kHzメディアオーディオ400ニュージーランド英語メディアの音声インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性367名、男性678名、不明26名
スピーチOriya_CC_8オリヤー語Oriya (パイプライン中) or_INコールセンター60Oriya (In Pipeline) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチOriya_GCオリヤー語Oriya (パイプライン中) or_IN一般的な会話100Oriya (In Pipeline) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチOriya_MAオリヤー語Oriya (パイプライン中) or_INメディアオーディオ40Oriya (In Pipeline) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチPolish_MA_16ポーランド語ポーランド語pl_PL16kHzメディアオーディオ269ポーランドのメディア オーディオインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 173 男性 354 不明 6
スピーチポーランド語 Polish_SM_48ポーランド語(ポーランド)ポーランド語(ポーランド)PL-PL48kHzスクリプト化された独白1,482ポーランド語 ポーランド - スクリプトによるモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1324 男性 701 不明 24
スピーチパンジャブ語_CC_8パンジャブ語パンジャブ語 (パイプライン中) パンジャブ語コールセンター60パンジャブ語 (パイプライン中) コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチパンジャブ語_GCパンジャブ語パンジャブ語 (パイプライン中) パンジャブ語一般的な会話100パンジャブ語 (パイプライン中) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチパンジャブ語_MAパンジャブ語パンジャブ語 (パイプライン中) パンジャブ語 メディアオーディオ40パンジャブ語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチRussian_SM_48ロシア語ロシア語RU-RU48kHzスクリプト化された独白2,398ロシアの脚本による独白5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1689 男性 1937 不明 214
スピーチScottish_GC_8スコットランド語 (英語訛り)スコットランド語 (英語訛り)ja_AB8kHz一般的な会話292スコットランド一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性285名、男性260名、不明3名
スピーチシンガポール_CC_8シンガポール英語シンガポール英語en_SG8kHzコールセンター218シンガポール コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 2139 、男性 884 、不明 21
スピーチシンガポール_MA_16シンガポール英語シンガポール英語en_SG16kHzメディアオーディオ247シンガポールメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性160、男性455、不明37
スピーチ南アフリカ英語_CC_8南アフリカ英語南アフリカ英語ja_ZA8kHzコールセンター261南アフリカ英語コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1274 、男性 935 、不明 1
スピーチ南アフリカ英語_MA_16南アフリカ英語南アフリカ英語ja_ZA16kHzメディアオーディオ251南アフリカ英語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性235、男性432、不明36
スピーチスワヒリ_CC_8スワヒリ語スワヒリ語sw_KE8kHzコールセンター230スワヒリ語コールセンターデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性611、男性833、不明0
スピーチスワヒリ_MA_16スワヒリ語スワヒリ語sw_KE16kHzメディアオーディオ265スワヒリ語メディアの音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性118、男性493、不明25
スピーチスウェーデン語_CC_8スウェーデン語スウェーデン語sv_SE8kHzコールセンター250スウェーデンのコールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性1581人、男性727人、不明2人
スピーチスウェーデン語_MA_16スウェーデン語スウェーデン語sv_SE16kHzメディアオーディオ278スウェーデンのメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性195人、男性500人、不明21人
スピーチタミル_CC_8タミル語タミル語 (パイプライン中) ta_INコールセンター60タミル語 (パイプライン中) コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチタミル語_GCタミル語タミル語 (パイプライン中) ta_IN一般的な会話100タミル語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチタミル語_MAタミル語 タミル語 (パイプライン中) ta_INメディアオーディオ40タミル語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチTelugu_GC_8テルグ語テルグ語te_IN8kHz一般的な会話553テルグ語一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 574 、男性 564 、不明 0
スピーチTelugu_MA_16テルグ語テルグ語te_IN16kHzメディアオーディオ648テルグ語メディアの音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性207、男性963、不明2
スピーチテルグ_CC_8テルグ語テルグ語 (パイプライン中) te_INコールセンター30テルグ語 (パイプライン中) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチテルグ語_GCテルグ語テルグ語 (パイプライン中) te_IN一般的な会話50テルグ語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチテルグ語_MAテルグ語テルグ語 (パイプライン中) te_INメディアオーディオ20テルグ語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチThai_GC_8タイ語タイ語th_TH8kHz一般的な会話183タイ語一般会話二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、友人間で使用される非公式のレジスタデュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性338、男性96、不明8
スピーチタイ語_MA_8タイ語タイ語th_TH16kHzメディアオーディオ173タイメディアオーディオインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性143、男性502、不明26
スピーチトルコ語 Turkey_SM_48トルコトルコトルコトルコTR-TR48kHzスクリプト化された独白2,027トルコトルコ5〜30秒の範囲に入る傾向がある単一発話の録音モノZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1561 男性 1241 不明 31
スピーチベトナム語_GC_8ベトナム語ベトナム語vi_VN8kHz一般的な会話295ベトナム語一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、北部(例、ハノイ)、中部、南部(例、ホーチミン市)。デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性400、男性380、不明2
スピーチベトナム語_MA_16ベトナム語ベトナム語vi_VN16kHzメディアオーディオ257ベトナムメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分モノウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性249、男性200、不明45
スピーチウェルシュ_GC_8ウェールズ語 (英語アクセント)ウェールズ語 (英語アクセント)en_WL8kHz一般的な会話278ウェールズ一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性270、男性324、不明0
スピーチ英国英語_WW_16イギリス英語イギリス英語en_uk16kHzワードを起こす200ウェイクワード英国英語キーフレーズ データのコレクション
  • 200スピーカー
  • スピーカーごとに 4 つの固有のキーフレーズ
  • 固有のキーフレーズごとに 25 ~ 30 の繰り返しキーフレーズの録音
  • 一意のキーフレーズごとに 25 ~ 30 個のオーディオ ファイル
  • 話者ごとに合計 120 の録音された発話
1チャンネルZOOO アプリについて5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング性別: 男性 50%、女性 50%、+/- 10%。

会話型AI開発を加速するためのGroundTruthオーディオおよび音声データ

Shaipは、40k時間以上の音声データセット/音声データセットを使用して、高品質の音声データセットを使用して会話型AIモデルをスケーリングするのに役立ちます。 ゴールドスタンダードの音声データセットは、複数の言語と方言、人口統計、話者の特性、対話の種類、環境、およびシナリオで収集されます。 探しているものが見つからない場合は? – Shaipは、性別、年齢、言語、設定を問わず、あらゆる音声データセットを支援します。

サポートしている言語データセットのいくつか: すべての主要な言語と方言のデータセットがあります。 最も人気のある言語には次のものがあります。

アフリカの音声データセット

アラビア語の音声データセット

カナダの音声データセット

中国語の音声データセット

デンマーク語の音声データセット

英語の音声データセット

ドイツ語の音声データセット

ヘブライ語音声データセット

インドネシア語の音声データセット

アイルランドの音声データセット

日本語の音声データセット

韓国語の音声データセット

メキシコの音声データセット

ポーランド語の音声データセット

ロシア語の音声データセット

スコットランドの音声データセット

スペイン語の音声データセット

スウェーデン語の音声データセット

タイ語の音声データセット

トルコ語の音声データセット

ベトナム語の音声データセット

データセットの説明

コールセンターの会話8khz: スクリプト化されていない合成電話会話:「エージェント」と「顧客」

一般的な会話8khz: 2人の間の台本なしの電話での会話

メディアとポッドキャスト16khz: パブリックドメインのオーディオ/ビデオインタビュー、ポッドキャストなど1〜5人

発話/スクリプトモノローグ16khz: プロンプトに基づく録音 

Shaipお問い合わせ

探しているものが見つかりませんか?

新しい既製のオーディオと音声のデータセットがすべてのデータタイプで収集されています 

オーディオ/スピーチトレーニングデータ収集の心配を手放すために今すぐお問い合わせください

  • 登録することで、Shaipに同意します プライバシーポリシー 及び 利用規約 ShaipからB2Bマーケティングコミュニケーションを受け取ることに同意します。