AI 向けの最も信頼できる音声データ収集サービス

Q: 音声データ収集とは何ですか?

ML モデルの音声データ収集とは、話し言葉の音声録音を収集するプロセスを指します。 このコレクションは、機械学習アルゴリズム、特に人間の声の理解と処理を中心としたアルゴリズムのトレーニングと洗練に役立ちます。

Q: ASR (自動音声認識) 用の音声データを収集するにはどうすればよいですか?

自動音声認識 (ASR) 用の音声データの収集を目的とする場合は、必要な言語、アクセント、音声の種類など、プロジェクト固有のニーズを定義することから始める必要があります。 これらのパラメータを設定した後、ユーザーのプライバシーを尊重するために必要な権限をすべて取得していることを確認してください。 次に、適切な録音デバイスまたはソフトウェアを使用して、クリアなオーディオ サンプルをキャプチャします。 各録音には、その転写またはその他の関連メタデータを使用して細心の注意を払って注釈を付け、簡単にアクセスできるように体系的に保存する必要があります。

Q: 複数の言語とアクセントから正確なデータを収集するにはどうすればよいですか?

多様な言語やアクセントから正確なデータを収集するには、希望する言語的背景を持つネイティブ スピーカーとの協力が不可欠です。 幅広い人口統計上のニュアンスをカバーする、多様で代表的なサンプルを目指します。 音声の一貫性を確保するために、統一された環境で標準化された録音機器を使用します。 そして重要なのは、特定の言語とアクセントを示す詳細な文字起こしとメタデータで各データ部分に注釈を付けることです。

音声および音声データ収集サービスを使用して、高品質の会話データを使用してNLPモデル、VA、TTSプロトタイプなどをトレーニングします

ボトルネックのないオーディオデータパイプラインを発見する

お問い合わせ（英語）

注目のクライアント

任意の主題。任意のシナリオ。

Shaip の専門知識は、さまざまな AI/ML 要件に合わせて設計された高品質の音声データセットの作成にあります。当社は幅広い言語を提供し、多様な設定で記録することで、データセットを包括的で適応性のあるものにしています。 ○私は、可能な限り最小限の時間で、最大量のカスタム音声データをモデルに供給することに重点を置いています。私たちが参加することで、次のことが期待できます。

精度を向上させるために厳選された高品質の多言語音声/音声データ
t に対するドメイン特異性の可能な限り最高レベル多様なシナリオをターゲットに

多様な人口統計と業種に合わせてMLモデルをスケーリングする
録音環境: スタジオ品質、 バックグラウンドノイズを最小限に抑えたクリアなオーディオを特徴とし、 自然環境、録音には環境音を組み込んで現実世界の状況を模倣します。

100+

か国

55 +

スピーチ時間のデータ

250+

プロジェクト

60+

言語 (100 以上の方言)

8 / 16 / 44 / 48 kHz

サンプリングレート

当社の専門知識

音声データを調整してよりスマートな NLP モデルを実現

Shaipは、100以上の言語でエンドツーエンドの音声/音声データ収集サービスを提供し、音声対応テクノロジーが世界中の多様なオーディエンスに対応できるようにします。私たちはあらゆる範囲と規模のプロジェクトに取り組むことができます。既存の既製のオーディオデータセットのライセンス供与から、カスタムオーディオデータ収集の管理、オーディオの文字起こしと注釈まで。音声データ収集プロジェクトの規模に関係なく、方言、トーン、言語を対象とする高品質のNLPデータセットを構築するために、ニーズに合わせて音声収集サービスをカスタマイズできます。音声対応のインテリジェントなセットアップのために、幅広い音声データセットと音声データ収集リソースから選択してください。

導入事例

3 言語にわたる 8 時間を超えるデータを含む会話型 AI データセット

インドの言語向けの多言語プラットフォームの構築を検討していたこのクライアントは、Shaip と提携して、インドの複数の言語で大規模なデータセットを収集、セグメント化、転記しました。これは、クライアントの革新的な新しいプラットフォームを強化できる効果的な音声モデルの開発に役立ちます。

問題： インドの 3,000 つの言語で収集された 8 時間以上の音声データが、自動音声認識を開発するために分割および転写されました。

解決法： データ収集、セグメンテーション、転写を提供し、メタデータを含む JSON ファイルを配信しました。私たちは、クライアントの音声テクノロジープロジェクトのために、インドの 3000 つの言語で 8 時間の音声データを大規模に収集しました。

信頼できる音声データ収集パートナーとしてShaipを選択する理由

のワークプ

専任の訓練を受けたチーム：

データ作成、ラベリング、QAのための30,000人以上の協力者
資格のあるプロジェクト管理チーム
経験豊富な製品開発チーム
タレントプールソーシング＆オンボーディングチーム

プロセス

最高のプロセス効率が保証されます：

堅牢な6シックスシグマステージゲートプロセス
シックスシグマ黒帯の専任チーム–主要なプロセス所有者と品質コンプライアンス
継続的改善とフィードバックループ

プラットフォーム

特許取得済みのプラットフォームには次のような利点があります。

Webベースのエンドツーエンドプラットフォーム
非の打ちどころのない品質
より速いTAT
シームレスな配信

のワークプ

専任の訓練を受けたチーム：

データ作成、ラベリング、QAのための30,000人以上の協力者
資格のあるプロジェクト管理チーム
経験豊富な製品開発チーム
タレントプールソーシング＆オンボーディングチーム

プロセス

最高のプロセス効率が保証されます：

堅牢な6シックスシグマステージゲートプロセス
シックスシグマ黒帯の専任チーム–主要なプロセス所有者と品質コンプライアンス
継続的改善とフィードバックループ

プラットフォーム

特許取得済みのプラットフォームには次のような利点があります。

Webベースのエンドツーエンドプラットフォーム
非の打ちどころのない品質
より速いTAT
シームレスな配信

既成のスピーチ/オーディオデータセット

コーパス ID (固有)	キーワード	言語データセット	言語コード	サンプリング速度	データセットのタイプ	合計オーディオ時間	短い説明	データセットの説明	音声チャンネル	レコーディングプラットフォーム	WER（％）	オーディオ形式	音声文字変換フォーマット	Use Case	スピーカーの数	CTA
en_US_CC_8	アフリカ系アメリカ人の言語	アフリカ系アメリカ人の言語	en_US	8kHz	コールセンター	211	アフリカ系アメリカ人の言葉によるコールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：612名、男性：1242名、不明：12名	お問い合わせ
en_US_MA_16	アフリカ系アメリカ人の言語	アフリカ系アメリカ人の言語	en_US	16kHz	メディアオーディオ	154	アフリカ系アメリカ人の言語メディアデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：151名、男性：150名、不明：10名	お問い合わせ
アフリカーンス_GC_8	アフリカーンス語	アフリカーンス語	af_ZA	8kHz	一般的な会話	368	アフリカーンス語一般会話データ	二人の間の台本なしの電話での会話。約音声再生時間（範囲）-15〜60分、アフリカーンス語はアフリカで話されています	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：502名、男性：390名、不明：2名	お問い合わせ
アフリカーンス_MA_16	アフリカーンス語	アフリカーンス語	af_ZA	16kHz	メディアオーディオ	658	アフリカーンス語のメディアファイル	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：750名、男性：1278名、不明：52名	お問い合わせ
アラビア語_GC_8	アラビア語	アラビア語	ar_AE	8kHz	一般的な会話	292	アラビア語一般会話データ	二人の間の台本なしの電話での会話。約音声再生時間（範囲）-15〜60分、湾岸諸国からのアラビア語	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：171名、男性：534名、不明：1名	お問い合わせ
アラビア語_SM_48	アラビア語	アラビア語	ar-SA	48kHz	スクリプト化された独白	1,947	アラビア語スクリプトの独白	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 838 男性 1209 不明 78	お問い合わせ
アッサム_CC_8	アッサム語	アッサム（パイプライン中）	as_IN		コールセンター	60	アッサム（パイプライン中）コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
アッサムGC	アッサム語	アッサム（パイプライン中）	as_IN		一般的な会話	100	アッサム語 (パイプライン) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
アッサム_MA	アッサム語	アッサム（パイプライン中）	as_IN		メディアオーディオ	40	アッサム (パイプライン) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
ベンガル_CC_8	ベンガル語	ベンガル語 (パイプライン中)	bn_IN		コールセンター	60	ベンガル語 (パイプライン中) コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
ベンガル_GC	ベンガル語	ベンガル語 (パイプライン中)	bn_IN		一般的な会話	100	ベンガル語 (パイプライン中) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
ベンガル語_MA	ベンガル語	ベンガル語 (パイプライン中)	bn_IN		メディアオーディオ	40	ベンガル語 (パイプライン中) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
ボストン_CC_8	ボストン英語	ボストン英語	en_US	8kHz	コールセンター	177	ボストンコールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：605名、男性：711名、不明：0名	お問い合わせ
ボストン_GC_8	ボストン英語	ボストン英語	en_US	8kHz	一般的な会話	32	ボストン一般会話データ	二人の間の台本なしの電話での会話。約オーディオ持続時間（範囲）-15〜60分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：53名、男性：83名、不明：0名	お問い合わせ
ボストン_MA_16	ボストン英語	ボストン英語	en_US	16kHz	メディアオーディオ	93	ボストン・メディアの音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：43名、男性：181名、不明：2名	お問い合わせ
カナダ人_SM_48	カナダのフランス語	カナダのフランス語	FR-CA	48kHz	スクリプト化された独白	1,222	カナダのフランス語	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 974 男性 631 不明 1	お問い合わせ
中国語_CC_8	中国語英語	中国語英語	en_US	8kHz	コールセンター	169	中国のコールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：1790、男性：523、不明：13	お問い合わせ
中国語_MA_16	中国語英語	中国語英語	en_US	16kHz	メディアオーディオ	249	中国メディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：126、男性：346、不明：6	お問い合わせ
簡体字中国語_SM_48	簡体字中国語	簡体字中国語	ZH-CN	48kHz	スクリプト化された独白	2,762	簡体字中国語	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1920 男性 1535 不明 270	お問い合わせ
繁体字中国語_SM_48	中国語（繁体字）	中国語（繁体字）	zh-TW	48kHz	スクリプト化された独白	1,028	中国語（繁体字）	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1069 男性 262 不明 3	お問い合わせ
デンマーク語_GC_8	デンマーク語	デンマーク語	da_DK	8kHz	一般的な会話	372	デンマーク語一般会話データ	二人の間の台本なしの電話での会話。約オーディオ持続時間（範囲）-15〜60分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：311名、男性：417名、不明：0名	お問い合わせ
デンマーク語_MA_16	デンマーク語	デンマーク語	da_DK	16kHz	メディアオーディオ	664	デンマークのメディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性：369名、男性：864名、不明：27名	お問い合わせ
デンマーク語_SM_48	デンマーク語	デンマーク語	DA-DK	48kHz	スクリプト化された独白	2,579	デンマーク語の台本付きモノローグ	デンマークのデンマーク語で、5〜30秒の範囲に収まる傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1551 男性 1233 不明 42	お問い合わせ
英語ディープサウス_CC_8	イングリッシュディープサウス	イングリッシュディープサウス	en_US	8kHz	コールセンター	151	English Deep South コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 221 、男性 1004 、不明 7	お問い合わせ
英語ディープサウス_GC_8	イングリッシュディープサウス	イングリッシュディープサウス	en_US	8kHz	一般的な会話	56	英語ディープサウス一般会話データ	二人の間の台本なしの電話での会話。約オーディオ持続時間（範囲）-15〜60分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性99、男性31、不明0	お問い合わせ
英語ディープサウス_MA_16	イングリッシュディープサウス	イングリッシュディープサウス	en_US	16kHz	メディアオーディオ	266	英語のディープサウスメディアの音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性204、男性356、不明21	お問い合わせ
ドイツ語_CC_8	ドイツ語	ドイツ語	デデ	8kHz	コールセンター	64	ドイツのコールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	Mono	デスクトップ		wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 478 男性 1440 不明 0	お問い合わせ
ドイツ語_IVR_8	ドイツ語	ドイツ語	デデ	8kHz	IVR	200	ドイツの IVR データ	ヒューマントゥマシン。 TTS プロンプト (「ご用件はありますか」など) の後に人間の自発的な応答が続く IVR タイプのフロー	Mono	デスクトップ		wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 10115 男性 8750 不明 0	お問い合わせ
グジャラート_CC_8	グジャラート語	グジャラート語 (パイプライン中)	gu_IN		コールセンター	60	グジャラート語 (パイプライン中) コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
グジャラート語_GC	グジャラート語	グジャラート語 (パイプライン中)	gu_IN		一般的な会話	100	グジャラート語 (パイプライン中) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
グジャラート州_MA	グジャラート語	グジャラート語 (パイプライン中)	gu_IN		メディアオーディオ	40	グジャラート語 (パイプライン中) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
ヘブライ語_一般会話_8	ヘブライ語	ヘブライ語	彼_IL	8kHz	一般的な会話	399	ヘブライ語一般会話データ	二人の間の台本なしの電話での会話。約音声再生時間（範囲）-15〜60分、イスラエルのヘブライ語	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性414名、男性399名、不明1名	お問い合わせ
ヘブライ語_MA_16	ヘブライ語	ヘブライ語	彼_IL	16kHz	メディアオーディオ	427	ヘブライ語メディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性361名、男性513名、不明13名	お問い合わせ
ヒンディー語_MA_16	ヒンディー語	ヒンディー語	こんにちは	16kHz	メディアオーディオ	219	ヒンディー語メディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性83名、男性309名、不明0名	お問い合わせ
ヒンディー語_SM_48	ヒンディー語	ヒンディー語	ハイイン	48kHz	スクリプト化された独白	2,867	ヒンディー語スクリプトのモノローグ	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1977 男性 1864 不明 147	お問い合わせ
ヒングリッシュ_CC_8	ヒングリッシュ	ヒングリッシュ	hg_IN	8kHz	コールセンター	208	HINGLISH コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 822、男性 1262 、不明 0	お問い合わせ
HINGLISH_MA_16	ヒングリッシュ	ヒングリッシュ	hg_IN	16kHz	メディアオーディオ	216	HINGLISH メディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性75、男性380、不明0	お問い合わせ
ヒスパニック系_CC_8	ヒスパニック英語	ヒスパニック英語	en_US	8kHz	コールセンター	212	ヒスパニック系コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性822、男性1262、不明0	お問い合わせ
ヒスパニック_MA_16	ヒスパニック英語	ヒスパニック英語	en_US	16kHz	メディアオーディオ	155	ヒスパニックコールメディアオーディオ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性140、男性219、不明5	お問い合わせ
インドネシア語_GC_8	インドネシア語	インドネシア語	やった	8kHz	一般的な会話	496	インドネシア語一般会話データ	二人の間の台本なしの電話での会話。約音声再生時間（範囲）-15〜60分、インドネシア語	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性524、男性454、不明2	お問い合わせ
インドネシア語_MA_16	インドネシア語	インドネシア語	やった	16kHz	メディアオーディオ	643	インドネシアのメディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性746、男性1507、不明129	お問い合わせ
アイリッシュ_GC_8	アイリッシュ	アイリッシュ	en_IE	8kHz	一般的な会話	192	アイルランド一般会話データ	二人の間の台本なしの電話での会話。約オーディオ持続時間（範囲）-15〜60分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 213 、男性 153 、不明 0	お問い合わせ
日本語_SM_48	日本語	日本語	JA-JP	48kHz	スクリプト化された独白	2,335	日本語台本のモノローグ	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1460 男性 1221 不明 194	お問い合わせ
カンナダ語_CC_8	カンナダ語	カンナダ語 (パイプライン)	kn_IN		コールセンター	60	カンナダ語 (パイプライン) コールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
カンナダ語_GC	カンナダ語	カンナダ語 (パイプライン)	kn_IN		一般的な会話	100	カンナダ語 (パイプライン) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
カンナダ語_MA	カンナダ語	カンナダ語 (パイプライン)	kn_IN		メディアオーディオ	40	カンナダ語 (パイプライン) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
韓国語_CC_8	韓国語	韓国語	ko_KR	8kHz	コールセンター	107	韓国コールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性1086名、男性210名、不明4名	お問い合わせ
韓国語_MA_16	韓国語	韓国語	ko_KR	16kHz	メディアオーディオ	204	韓国メディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性70名男性303名不明25名	お問い合わせ
韓国人_SM_48	韓国語	韓国語	ko-KR	48kHz	スクリプト化された独白	1,955	韓国語台本のモノローグ	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1195 男性 1134 不明 122	お問い合わせ
マレー_GC_8	マレー語	マレー語	ms_MY	8kHz	一般的な会話	266	マレー語一般会話データ	二人の間の台本なしの電話での会話。約音声再生時間（範囲）-15〜60分、マレーシアのマレー語	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 316 、男性 176 、不明 0	お問い合わせ
マレー_MA_16	マレー語	マレー語	ms_MY	16kHz	メディアオーディオ	344	マレー語メディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性236、男性626、不明47	お問い合わせ
マラヤーラム語_CC_8	マラヤーラム語	マラヤーラム語 (パイプライン中)	ml_IN		コールセンター	60	マラヤーラム語 (パイプライン中) コールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
マラヤーラム語_GC	マラヤーラム語	マラヤーラム語 (パイプライン中)	ml_IN		一般的な会話	100	マラヤーラム語 (パイプライン中) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
マラヤーラム語_MA	マラヤーラム語	マラヤーラム語 (パイプライン中)	ml_IN		メディアオーディオ	40	マラヤーラム語 (パイプライン) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
マラーティー語_CC_8	マラーティー語	マラーティー語 (パイプライン中)	mr_IN		コールセンター	60	マラーティー語 (パイプライン中) コールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
マラーティー語_GC	マラーティー語	マラーティー語 (パイプライン中)	mr_IN		一般的な会話	100	マラーティー語 (パイプライン) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
マラーティ_MA	マラーティー語	マラーティー語 (パイプライン中)	mr_IN		メディアオーディオ	40	マラーティー語 (パイプライン内) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
メキシカン_SM_48	スペイン語（メキシコ）	スペイン語（メキシコ）	ES-MX	48kHz	スクリプト化された独白	1,492	メキシコのスペイン語の台本によるモノローグ	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1016 男性 1069 不明 95	お問い合わせ
オランダ_SM_48	オランダ語	オランダ語	NL-NL	48kHz	スクリプト化された独白	1,205	オランダ語の台本による独白	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1285 男性 531 不明 3	お問い合わせ
ニューヨーク英語_CC_8	ニューヨーク英語	ニューヨーク英語	en_US	8kHz	コールセンター	103	ニューヨーク英語コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 610、男性 532、不明 0	お問い合わせ
ニューヨーク英語_GC_8	ニューヨーク英語	ニューヨーク英語	en_US	8kHz	一般的な会話	107	ニューヨーク英語一般会話データ	二人の間の台本なしの電話での会話。約オーディオ持続時間（範囲）-15〜60分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性118、男性114、不明0	お問い合わせ
ニューヨーク英語_MA_16	ニューヨーク英語	ニューヨーク英語	en_US	16kHz	メディアオーディオ	140	ニューヨーク英語メディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性66、男性230、不明11	お問い合わせ
ニュージーランド_GC_8	ニュージーランド英語	ニュージーランド英語	en_NZ	8kHz	一般的な会話	148	ニュージーランド英語一般会話データ	二人の間の台本なしの電話での会話。約オーディオ持続時間（範囲）-15〜60分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性167名、男性121名、不明4名	お問い合わせ
ニュージーランド_MA_16	ニュージーランド英語	ニュージーランド英語	en_NZ	16kHz	メディアオーディオ	400	ニュージーランド英語メディアの音声	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性367名、男性678名、不明26名	お問い合わせ
オリヤ_CC_8	オリヤー語	Oriya (パイプライン中)	or_IN		コールセンター	60	Oriya (In Pipeline) コールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
Oriya_GC	オリヤー語	Oriya (パイプライン中)	or_IN		一般的な会話	100	Oriya (In Pipeline) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
Oriya_MA	オリヤー語	Oriya (パイプライン中)	or_IN		メディアオーディオ	40	Oriya (In Pipeline) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
ポーランド語_MA_16	ポーランド語	ポーランド語	pl_PL	16kHz	メディアオーディオ	269	ポーランドのメディアオーディオ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 173 男性 354 不明 6	お問い合わせ
ポーランド語 Polish_SM_48	ポーランド語（ポーランド）	ポーランド語（ポーランド）	PL-PL	48kHz	スクリプト化された独白	1,482	ポーランド語ポーランド - スクリプトによるモノローグ	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1324 男性 701 不明 24	お問い合わせ
パンジャブ語_CC_8	パンジャブ語	パンジャブ語 (パイプライン中)	パンジャブ語		コールセンター	60	パンジャブ語 (パイプライン中) コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
パンジャブ語_GC	パンジャブ語	パンジャブ語 (パイプライン中)	パンジャブ語		一般的な会話	100	パンジャブ語 (パイプライン中) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
パンジャブ語_MA	パンジャブ語	パンジャブ語 (パイプライン中)	パンジャブ語		メディアオーディオ	40	パンジャブ語 (パイプライン) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
ロシア_SM_48	ロシア語	ロシア語	RU-RU	48kHz	スクリプト化された独白	2,398	ロシアの脚本による独白	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1689 男性 1937 不明 214	お問い合わせ
スコットランド_GC_8	スコットランド語 (英語訛り)	スコットランド語 (英語訛り)	ja_AB	8kHz	一般的な会話	292	スコットランド一般会話データ	二人の間の台本なしの電話での会話。約オーディオ持続時間（範囲）-15〜60分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性285名、男性260名、不明3名	お問い合わせ
シンガポール_CC_8	シンガポール英語	シンガポール英語	en_SG	8kHz	コールセンター	218	シンガポールのコールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 2139 、男性 884 、不明 21	お問い合わせ
シンガポール_MA_16	シンガポール英語	シンガポール英語	en_SG	16kHz	メディアオーディオ	247	シンガポールメディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性160、男性455、不明37	お問い合わせ
南アフリカ英語_CC_8	南アフリカ英語	南アフリカ英語	ja_ZA	8kHz	コールセンター	261	南アフリカ英語のコールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1274 、男性 935 、不明 1	お問い合わせ
南アフリカ英語_MA_16	南アフリカ英語	南アフリカ英語	ja_ZA	16kHz	メディアオーディオ	251	南アフリカ英語メディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性235、男性432、不明36	お問い合わせ
スワヒリ_CC_8	スワヒリ語	スワヒリ語	sw_KE	8kHz	コールセンター	230	スワヒリ語コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性611、男性833、不明0	お問い合わせ
スワヒリ_MA_16	スワヒリ語	スワヒリ語	sw_KE	16kHz	メディアオーディオ	265	スワヒリ語メディアの音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性118、男性493、不明25	お問い合わせ
スウェーデン語_CC_8	スウェーデン語	スウェーデン語	sv_SE	8kHz	コールセンター	250	スウェーデンのコールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性1581人、男性727人、不明2人	お問い合わせ
スウェーデン語_MA_16	スウェーデン語	スウェーデン語	sv_SE	16kHz	メディアオーディオ	278	スウェーデンのメディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性195人、男性500人、不明21人	お問い合わせ
タミル_CC_8	タミル語	タミル語 (パイプライン中)	ta_IN		コールセンター	60	タミル語 (パイプライン中) コールセンターのデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
タミル語_GC	タミル語	タミル語 (パイプライン中)	ta_IN		一般的な会話	100	タミル語 (パイプライン) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
タミル語_MA	タミル語	タミル語 (パイプライン中)	ta_IN		メディアオーディオ	40	タミル語 (パイプライン) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
テルグ語_GC_8	テルグ語	テルグ語	te_IN	8kHz	一般的な会話	553	テルグ語一般会話データ	二人の間の台本なしの電話での会話。約オーディオ持続時間（範囲）-15〜60分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 574 、男性 564 、不明 0	お問い合わせ
テルグ語_MA_16	テルグ語	テルグ語	te_IN	16kHz	メディアオーディオ	648	テルグ語メディアの音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性207、男性963、不明2	お問い合わせ
テルグ_CC_8	テルグ語	テルグ語 (パイプライン中)	te_IN		コールセンター	30	テルグ語 (パイプライン中) コールセンターデータ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
テルグ語_GC	テルグ語	テルグ語 (パイプライン中)	te_IN		一般的な会話	50	テルグ語 (パイプライン) 一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、		デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
テルグ語_MA	テルグ語	テルグ語 (パイプライン中)	te_IN		メディアオーディオ	20	テルグ語 (パイプライン) メディアオーディオデータ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分		ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング		お問い合わせ
タイ_GC_8	タイ語	タイ語	th_TH	8kHz	一般的な会話	183	タイ語一般会話	二人の間の台本なしの電話での会話。約オーディオ持続時間（範囲）-15〜60分、友人間で使用される非公式のレジスタ	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性338、男性96、不明8	お問い合わせ
タイ語_MA_8	タイ語	タイ語	th_TH	16kHz	メディアオーディオ	173	タイメディアオーディオ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性143、男性502、不明26	お問い合わせ
トルコ語 Turkey_SM_48	トルコトルコ	トルコトルコ	TR-TR	48kHz	スクリプト化された独白	2,027	トルコトルコ	5〜30秒の範囲に入る傾向がある単一発話の録音	Mono	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性 1561 男性 1241 不明 31	お問い合わせ
ベトナム語_GC_8	ベトナム語	ベトナム語	vi_VN	8kHz	一般的な会話	295	ベトナム語一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、北部（例、ハノイ）、中部、南部（例、ホーチミン市）。	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性400、男性380、不明2	お問い合わせ
ベトナム語_MA_16	ベトナム語	ベトナム語	vi_VN	16kHz	メディアオーディオ	257	ベトナムメディア音声データ	インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。約音声再生時間（範囲）15〜60分	Mono	ウェブソーシング	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性249、男性200、不明45	お問い合わせ
ウェルシュ_GC_8	ウェールズ語 (英語アクセント)	ウェールズ語 (英語アクセント)	ja_WL	8kHz	一般的な会話	278	ウェールズ一般会話データ	「エージェント」と「顧客」の間の台本なしの合成電話会話、約。音声再生時間（範囲）5〜15分、	デュアル	デスクトップ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	女性270、男性324、不明0	お問い合わせ
英国英語_WW_16	イギリス英語	イギリス英語	en_uk	16kHz	ワードを起こす	200スピーカー	ウェイクワード英国英語	キーフレーズデータのコレクション 200スピーカースピーカーごとに 4 つの固有のキーフレーズ固有のキーフレーズごとに 25 ～ 30 の繰り返しキーフレーズの録音一意のキーフレーズごとに 25 ～ 30 個のオーディオファイル話者ごとに合計 120 の録音された発話	1チャンネル	モバイルアプリ	5.0	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	性別: 男性 50%、女性 50%、+/- 10%。	お問い合わせ

提供されるサービス

エキスパートのオーディオデータ収集は、包括的なAIセットアップのためのすべてのハンズオンデッキではありません。 Shaipでは、次のサービスを検討して、モデルを通常よりもはるかに普及させることもできます。

推奨リソース

提供すること

インテリジェントAIの音声注釈

音声注釈サービスは、当初から Shaip の強みでした。最先端の音声注釈サービスを使用して、会話型 AI、チャットボット、音声認識エンジンを開発、トレーニング、改善します。

バイヤーガイド

バイヤーズガイド：会話型AIの完全ガイド

会話したチャットボットは、大量の音声認識データセットを使用してトレーニング、テスト、構築された高度な会話型AIシステムで実行されます。

データカタログ

既製の音声データカタログとライセンス

AI プロジェクトの音声データには、さまざまな一般的なアプリケーションがあります。音声認識に使用できる大量の高品質データを提供します。

独自のオーディオデータセットを構築したいですか？

社内の音声データ収集の専門家に連絡して、要件に最適なオーディオリポジトリを設定します

名*
姓*
Email *
Phone*
会社概要*
国*
国
コメント*
登録することで、Shaipに同意します個人情報保護方針 & 利用規約 ShaipからB2Bマーケティングコミュニケーションを受け取ることに同意します。
キャプチャ

よくある質問（FAQ）

1. 音声データ収集とは何ですか?

ML モデルの音声データ収集とは、話し言葉の音声録音を収集するプロセスを指します。このコレクションは、機械学習アルゴリズム、特に人間の声の理解と処理を中心としたアルゴリズムのトレーニングと洗練に役立ちます。

2. ASR (自動音声認識) 用の音声データを収集するにはどうすればよいですか?

自動音声認識 (ASR) 用の音声データを収集することを目的とする場合は、必要な言語、アクセント、音声の種類など、プロジェクト固有のニーズを定義することから始める必要があります。これらのパラメータを設定した後、ユーザーのプライバシーを尊重するために必要な権限をすべて取得していることを確認してください。次に、適切な録音デバイスまたはソフトウェアを使用して、クリアなオーディオサンプルをキャプチャします。各録音には、その転写またはその他の関連メタデータを使用して細心の注意を払って注釈を付け、簡単にアクセスできるように体系的に保存する必要があります。

3. 機械学習のための音声データセットの使用

機械学習における音声データセットは、話し言葉の認識、文字起こし、解釈に合わせたモデルのトレーニング、テスト、検証にとって極めて重要です。このようなデータセットは、音声アシスタントや文字起こしサービスから音声生体認証に至るまで、無数のアプリケーションへの道を開きます。

4. 複数の言語とアクセントから正確なデータを収集する方法

多様な言語やアクセントから正確なデータを収集するには、希望する言語的背景を持つネイティブスピーカーとの協力が不可欠です。幅広い人口統計上のニュアンスをカバーする、多様で代表的なサンプルを目指します。音声の一貫性を確保するために、統一された環境で標準化された録音機器を使用します。そして重要なのは、特定の言語とアクセントを示す詳細な文字起こしとメタデータで各データ部分に注釈を付けることです。

AI 向けの最も信頼できる音声データ収集サービス

ボトルネックのないオーディオ データ パイプラインを発見する

注目のクライアント

プロフェッショナルオーディオ/音声データ収集サービス

任意の主題。 任意のシナリオ。

100+

55 +

250+

60+

8 / 16 / 44 / 48 kHz

当社の専門知識

音声データを調整してよりスマートな NLP モデルを実現

モノローグスピーチコレクション

対話スピーチ コレクション

グループ/複数パーティ 会話

自然言語発話コレクション

音響データ コレクション

自動音声認識（ASR）

多言語スピーチ/オーディオトレーニングデータ

テキストを音声に変換する （TTS）

センターに電話 レコーディング

導入事例

信頼できる音声データ収集パートナーとしてShaipを選択する理由

のワークプ

プロセス

プラットフォーム

のワークプ

プロセス

プラットフォーム

既成のスピーチ/オーディオデータセット

提供されるサービス

テキストデータ収集 サービス

画像データ収集サービス

ビデオデータ収集サービス

推奨リソース

提供すること

インテリジェントAIの音声注釈

バイヤーガイド

バイヤーズガイド：会話型AIの完全ガイド

データカタログ

既製の音声データ カタログとライセンス

独自のオーディオデータセットを構築したいですか？

よくある質問（FAQ）

AIデータサービス

専門

業種

製品

会社概要

リソース

お問い合わせ（英語）

ボトルネックのないオーディオデータパイプラインを発見する

任意の主題。任意のシナリオ。

対話スピーチ
コレクション

グループ/複数パーティ
会話

音響データ
コレクション

テキストを音声に変換する
（TTS）

センターに電話
レコーディング

テキストデータ収集
サービス

既製の音声データカタログとライセンス