AI 向けの最も信頼できる音声データ収集サービス
音声および音声データ収集サービスを使用して、高品質の会話データを使用してNLPモデル、VA、TTSプロトタイプなどをトレーニングします
ボトルネックのないオーディオ データ パイプラインを発見する
注目のクライアント
プロフェッショナルオーディオ/音声データ収集サービス
任意の主題。 任意のシナリオ。
Shaip の専門知識は、さまざまな AI/ML 要件に合わせて設計された高品質の音声データセットの作成にあります。当社は幅広い言語を提供し、多様な設定で記録することで、データセットを包括的で適応性のあるものにしています。 ○私は、可能な限り最小限の時間で、最大量のカスタム音声データをモデルに供給することに重点を置いています。 私たちが参加することで、次のことが期待できます。
- 精度を向上させるために厳選された高品質の多言語音声/音声データ
- t に対するドメイン特異性の可能な限り最高レベル多様なシナリオをターゲットに
- 多様な人口統計と業種に合わせてMLモデルをスケーリングする
- 録音環境: スタジオ品質、 バックグラウンドノイズを最小限に抑えたクリアなオーディオを特徴とし、 自然環境、録音には環境音を組み込んで現実世界の状況を模倣します。
100+
55 +
スピーチ時間のデータ
250+
プロジェクト
60+
言語 (100 以上の方言)
8 / 16 / 44 / 48 kHz
サンプリングレート
当社の専門知識
音声データを調整してよりスマートな NLP モデルを実現
Shaipは、100以上の言語でエンドツーエンドの音声/音声データ収集サービスを提供し、音声対応テクノロジーが世界中の多様なオーディエンスに対応できるようにします。 私たちはあらゆる範囲と規模のプロジェクトに取り組むことができます。 既存の既製のオーディオデータセットのライセンス供与から、カスタムオーディオデータ収集の管理、オーディオの文字起こしと注釈まで。 音声データ収集プロジェクトの規模に関係なく、方言、トーン、言語を対象とする高品質のNLPデータセットを構築するために、ニーズに合わせて音声収集サービスをカスタマイズできます。 音声対応のインテリジェントなセットアップのために、幅広い音声データセットと音声データ収集リソースから選択してください。
モノローグスピーチコレクション
単一の話者からの音声を処理することに重点を置いています。スクリプト化されたプロンプトを利用して単一チャンネルのオーディオ ファイルにフィードし、その個人に特有のユニークな発話パターン、トーン、ニュアンスを確実にキャプチャします。
対話スピーチ
コレクション
2 人の対話。デュアルチャネル ファイルと文字起こしされたリソースを介して多言語で公開され、現実世界の会話や対話を再現します。
グループ/複数パーティ
会話
複数人でのディスカッション、グループのダイナミクス、重複、さまざまな口調をキャプチャして、音声モデルを正確にトレーニングします。
自然言語発話コレクション
高度な自然言語処理と理解のために、多様で豊富な本物の発話を使用して、似た意味を持つフレーズやウェイクワードを識別するように AI をトレーニングします。
音響データ
コレクション
より広い音響範囲をカバーしながら、レストラン、オフィス、家庭など、さまざまな環境や言語からのスタジオ品質のオーディオ データを専門的に録音できます。
自動音声認識(ASR)
さまざまな人口統計からの最先端の多様な音声/音声データセットにアクセスできるようにすることで、自動音声認識(ASR)システムの精度を向上させます。
多言語スピーチ/オーディオトレーニングデータ
世界中の当社の熟練した言語専門家が、さまざまな言語や方言の多言語音声/音声データを提供します。この取り組みは、グローバルなコミュニケーションを促進し、言語の壁を越え、より包括的で効果的な AI ソリューションに貢献します。
テキストを音声に変換する
(TTS)
当社のグローバル従業員の支援を受けてテキスト読み上げ (TTS) 多言語モデルを構築します。従業員は 150 以上の言語と方言の音声データの収集を支援し、車載制御からチャットボットや学習ソリューションに至るまで AI モデルを高度な機能で強化します。高品質の音声データ。
センターに電話
レコーディング
スペイン語、ドイツ語、アメリカ英語、ベンガル語、日本語、中国語、ヒンディー語などの多数の言語をサポートする、エージェントとクライアント間の本物のやりとり。
導入事例
3 言語にわたる 8 時間を超えるデータを含む会話型 AI データセット
インドの言語向けの多言語プラットフォームの構築を検討していたこのクライアントは、Shaip と提携して、インドの複数の言語で大規模なデータセットを収集、セグメント化、転記しました。これは、クライアントの革新的な新しいプラットフォームを強化できる効果的な音声モデルの開発に役立ちます。
問題: インドの 3,000 つの言語で収集された 8 時間以上の音声データが、自動音声認識を開発するために分割および転写されました。
解決法: データ収集、セグメンテーション、転写を提供し、メタデータを含む JSON ファイルを配信しました。私たちは、クライアントの音声テクノロジー プロジェクトのために、インドの 3000 つの言語で 8 時間の音声データを大規模に収集しました。
信頼できる音声データ収集パートナーとしてShaipを選択する理由
のワークプ
専任の訓練を受けたチーム:
- データ作成、ラベリング、QAのための30,000人以上の協力者
- 資格のあるプロジェクト管理チーム
- 経験豊富な製品開発チーム
- タレントプールソーシング&オンボーディングチーム
プロセス
最高のプロセス効率が保証されます:
- 堅牢な6シックスシグマステージゲートプロセス
- シックスシグマ黒帯の専任チーム–主要なプロセス所有者と品質コンプライアンス
- 継続的改善とフィードバックループ
プラットフォーム
特許取得済みのプラットフォームには次のような利点があります。
- Webベースのエンドツーエンドプラットフォーム
- 非の打ちどころのない品質
- より速いTAT
- シームレスな配信
のワークプ
専任の訓練を受けたチーム:
- データ作成、ラベリング、QAのための30,000人以上の協力者
- 資格のあるプロジェクト管理チーム
- 経験豊富な製品開発チーム
- タレントプールソーシング&オンボーディングチーム
プロセス
最高のプロセス効率が保証されます:
- 堅牢な6シックスシグマステージゲートプロセス
- シックスシグマ黒帯の専任チーム–主要なプロセス所有者と品質コンプライアンス
- 継続的改善とフィードバックループ
プラットフォーム
特許取得済みのプラットフォームには次のような利点があります。
- Webベースのエンドツーエンドプラットフォーム
- 非の打ちどころのない品質
- より速いTAT
- シームレスな配信
既成のスピーチ/オーディオデータセット
詳細 | コーパス ID (固有) | キーワード | 言語データセット | 言語コード | サンプリング速度 | データセットのタイプ | 合計オーディオ時間 | 短い説明 | データセットの説明 | 音声チャンネル | レコーディングプラットフォーム | WER(%) | オーディオ形式 | 音声文字変換フォーマット | Use Case | スピーカーの数 | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
en_US_CC_8 | アフリカ系アメリカ人の言語 | アフリカ系アメリカ人の言語 | en_US | 8kHz | コールセンター | 211 | アフリカ系アメリカ人の言葉によるコールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:612名、男性:1242名、不明:12名 | お問い合わせ | |
en_US_MA_16 | アフリカ系アメリカ人の言語 | アフリカ系アメリカ人の言語 | en_US | 16kHz | メディアオーディオ | 154 | アフリカ系アメリカ人の言語メディア データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:151名、男性:150名、不明:10名 | お問い合わせ | |
アフリカーンス_GC_8 | アフリカーンス語 | アフリカーンス語 | af_ZA | 8kHz | 一般的な会話 | 368 | アフリカーンス語一般会話データ | 二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、アフリカーンス語はアフリカで話されています | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:502名、男性:390名、不明:2名 | お問い合わせ | |
アフリカーンス_MA_16 | アフリカーンス語 | アフリカーンス語 | af_ZA | 16kHz | メディアオーディオ | 658 | アフリカーンス語のメディア ファイル | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:750名、男性:1278名、不明:52名 | お問い合わせ | |
アラビア語_GC_8 | アラビア語 | アラビア語 | ar_AE | 8kHz | 一般的な会話 | 292 | アラビア語一般会話データ | 二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、湾岸諸国からのアラビア語 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:171名、男性:534名、不明:1名 | お問い合わせ | |
アラビア語_SM_48 | アラビア語 | アラビア語 | ar-SA | 48kHz | スクリプト化された独白 | 1,947 | アラビア語スクリプトの独白 | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 838 男性 1209 不明 78 | お問い合わせ | |
アッサム_CC_8 | アッサム語 | アッサム(パイプライン中) | as_IN | コールセンター | 60 | アッサム(パイプライン中)コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
アッサムGC | アッサム語 | アッサム(パイプライン中) | as_IN | 一般的な会話 | 100 | アッサム語 (パイプライン) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
アッサム_MA | アッサム語 | アッサム(パイプライン中) | as_IN | メディアオーディオ | 40 | アッサム (パイプライン) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
ベンガル_CC_8 | ベンガル語 | ベンガル語 (パイプライン中) | bn_IN | コールセンター | 60 | ベンガル語 (パイプライン中) コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
ベンガル_GC | ベンガル語 | ベンガル語 (パイプライン中) | bn_IN | 一般的な会話 | 100 | ベンガル語 (パイプライン中) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
ベンガル語_MA | ベンガル語 | ベンガル語 (パイプライン中) | bn_IN | メディアオーディオ | 40 | ベンガル語 (パイプライン中) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
ボストン_CC_8 | ボストン英語 | ボストン英語 | en_US | 8kHz | コールセンター | 177 | ボストン コールセンター データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:605名、男性:711名、不明:0名 | お問い合わせ | |
ボストン_GC_8 | ボストン英語 | ボストン英語 | en_US | 8kHz | 一般的な会話 | 32 | ボストン一般会話データ | 二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:53名、男性:83名、不明:0名 | お問い合わせ | |
ボストン_MA_16 | ボストン英語 | ボストン英語 | en_US | 16kHz | メディアオーディオ | 93 | ボストン・メディアの音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:43名、男性:181名、不明:2名 | お問い合わせ | |
カナダ人_SM_48 | カナダのフランス語 | カナダのフランス語 | FR-CA | 48kHz | スクリプト化された独白 | 1,222 | カナダのフランス語 | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 974 男性 631 不明 1 | お問い合わせ | |
中国語_CC_8 | 中国語英語 | 中国語英語 | en_US | 8kHz | コールセンター | 169 | 中国のコールセンターデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:1790、男性:523、不明:13 | お問い合わせ | |
中国語_MA_16 | 中国語英語 | 中国語英語 | en_US | 16kHz | メディアオーディオ | 249 | 中国メディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:126、男性:346、不明:6 | お問い合わせ | |
簡体字中国語_SM_48 | 簡体字中国語 | 簡体字中国語 | ZH-CN | 48kHz | スクリプト化された独白 | 2,762 | 簡体字中国語 | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1920 男性 1535 不明 270 | お問い合わせ | |
繁体字中国語_SM_48 | 中国語(繁体字) | 中国語(繁体字) | zh-TW | 48kHz | スクリプト化された独白 | 1,028 | 中国語(繁体字) | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1069 男性 262 不明 3 | お問い合わせ | |
デンマーク語_GC_8 | デンマーク語 | デンマーク語 | da_DK | 8kHz | 一般的な会話 | 372 | デンマーク語一般会話データ | 二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:311名、男性:417名、不明:0名 | お問い合わせ | |
デンマーク語_MA_16 | デンマーク語 | デンマーク語 | da_DK | 16kHz | メディアオーディオ | 664 | デンマークのメディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性:369名、男性:864名、不明:27名 | お問い合わせ | |
デンマーク語_SM_48 | デンマーク語 | デンマーク語 | DA-DK | 48kHz | スクリプト化された独白 | 2,579 | デンマーク語の台本付きモノローグ | デンマークのデンマーク語で、5〜30秒の範囲に収まる傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1551 男性 1233 不明 42 | お問い合わせ | |
英語ディープサウス_CC_8 | イングリッシュディープサウス | イングリッシュディープサウス | en_US | 8kHz | コールセンター | 151 | English Deep South コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 221 、男性 1004 、不明 7 | お問い合わせ | |
英語ディープサウス_GC_8 | イングリッシュディープサウス | イングリッシュディープサウス | en_US | 8kHz | 一般的な会話 | 56 | 英語ディープサウス一般会話データ | 二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性99、男性31、不明0 | お問い合わせ | |
英語ディープサウス_MA_16 | イングリッシュディープサウス | イングリッシュディープサウス | en_US | 16kHz | メディアオーディオ | 266 | 英語のディープ サウス メディアの音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性204、男性356、不明21 | お問い合わせ | |
ドイツ語_CC_8 | ドイツ語 | ドイツ語 | デデ | 8kHz | コールセンター | 64 | ドイツのコールセンター データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | Mono | デスクトップ | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 478 男性 1440 不明 0 | お問い合わせ | ||
ドイツ語_IVR_8 | ドイツ語 | ドイツ語 | デデ | 8kHz | IVR | 200 | ドイツの IVR データ | ヒューマン トゥ マシン。 TTS プロンプト (「ご用件はありますか」など) の後に人間の自発的な応答が続く IVR タイプのフロー | Mono | デスクトップ | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 10115 男性 8750 不明 0 | お問い合わせ | ||
グジャラート_CC_8 | グジャラート語 | グジャラート語 (パイプライン中) | gu_IN | コールセンター | 60 | グジャラート語 (パイプライン中) コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
グジャラート語_GC | グジャラート語 | グジャラート語 (パイプライン中) | gu_IN | 一般的な会話 | 100 | グジャラート語 (パイプライン中) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
グジャラート州_MA | グジャラート語 | グジャラート語 (パイプライン中) | gu_IN | メディアオーディオ | 40 | グジャラート語 (パイプライン中) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
ヘブライ語_一般会話_8 | ヘブライ語 | ヘブライ語 | 彼_IL | 8kHz | 一般的な会話 | 399 | ヘブライ語一般会話データ | 二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、イスラエルのヘブライ語 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性414名、男性399名、不明1名 | お問い合わせ | |
ヘブライ語_MA_16 | ヘブライ語 | ヘブライ語 | 彼_IL | 16kHz | メディアオーディオ | 427 | ヘブライ語メディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性361名、男性513名、不明13名 | お問い合わせ | |
ヒンディー語_MA_16 | ヒンディー語 | ヒンディー語 | こんにちは | 16kHz | メディアオーディオ | 219 | ヒンディー語メディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性83名、男性309名、不明0名 | お問い合わせ | |
ヒンディー語_SM_48 | ヒンディー語 | ヒンディー語 | ハイイン | 48kHz | スクリプト化された独白 | 2,867 | ヒンディー語スクリプトのモノローグ | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1977 男性 1864 不明 147 | お問い合わせ | |
ヒングリッシュ_CC_8 | ヒングリッシュ | ヒングリッシュ | hg_IN | 8kHz | コールセンター | 208 | HINGLISH コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 822、男性 1262 、不明 0 | お問い合わせ | |
HINGLISH_MA_16 | ヒングリッシュ | ヒングリッシュ | hg_IN | 16kHz | メディアオーディオ | 216 | HINGLISH メディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性75、男性380、不明0 | お問い合わせ | |
ヒスパニック系_CC_8 | ヒスパニック英語 | ヒスパニック英語 | en_US | 8kHz | コールセンター | 212 | ヒスパニック系コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性822、男性1262、不明0 | お問い合わせ | |
ヒスパニック_MA_16 | ヒスパニック英語 | ヒスパニック英語 | en_US | 16kHz | メディアオーディオ | 155 | ヒスパニック コール メディア オーディオ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性140、男性219、不明5 | お問い合わせ | |
インドネシア語_GC_8 | インドネシア語 | インドネシア語 | やった | 8kHz | 一般的な会話 | 496 | インドネシア語一般会話データ | 二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、インドネシア語 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性524、男性454、不明2 | お問い合わせ | |
インドネシア語_MA_16 | インドネシア語 | インドネシア語 | やった | 16kHz | メディアオーディオ | 643 | インドネシアのメディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性746、男性1507、不明129 | お問い合わせ | |
アイリッシュ_GC_8 | アイリッシュ | アイリッシュ | en_IE | 8kHz | 一般的な会話 | 192 | アイルランド一般会話データ | 二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 213 、男性 153 、不明 0 | お問い合わせ | |
日本語_SM_48 | 日本語 | 日本語 | JA-JP | 48kHz | スクリプト化された独白 | 2,335 | 日本語台本のモノローグ | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1460 男性 1221 不明 194 | お問い合わせ | |
カンナダ語_CC_8 | カンナダ語 | カンナダ語 (パイプライン) | kn_IN | コールセンター | 60 | カンナダ語 (パイプライン) コールセンター データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
カンナダ語_GC | カンナダ語 | カンナダ語 (パイプライン) | kn_IN | 一般的な会話 | 100 | カンナダ語 (パイプライン) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
カンナダ語_MA | カンナダ語 | カンナダ語 (パイプライン) | kn_IN | メディアオーディオ | 40 | カンナダ語 (パイプライン) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
韓国語_CC_8 | 韓国語 | 韓国語 | ko_KR | 8kHz | コールセンター | 107 | 韓国コールセンターデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性1086名、男性210名、不明4名 | お問い合わせ | |
韓国語_MA_16 | 韓国語 | 韓国語 | ko_KR | 16kHz | メディアオーディオ | 204 | 韓国メディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性70名 男性303名 不明25名 | お問い合わせ | |
韓国人_SM_48 | 韓国語 | 韓国語 | ko-KR | 48kHz | スクリプト化された独白 | 1,955 | 韓国語台本のモノローグ | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1195 男性 1134 不明 122 | お問い合わせ | |
マレー_GC_8 | マレー語 | マレー語 | ms_MY | 8kHz | 一般的な会話 | 266 | マレー語一般会話データ | 二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、マレーシアのマレー語 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 316 、男性 176 、不明 0 | お問い合わせ | |
マレー_MA_16 | マレー語 | マレー語 | ms_MY | 16kHz | メディアオーディオ | 344 | マレー語メディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性236、男性626、不明47 | お問い合わせ | |
マラヤーラム語_CC_8 | マラヤーラム語 | マラヤーラム語 (パイプライン中) | ml_IN | コールセンター | 60 | マラヤーラム語 (パイプライン中) コールセンター データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
マラヤーラム語_GC | マラヤーラム語 | マラヤーラム語 (パイプライン中) | ml_IN | 一般的な会話 | 100 | マラヤーラム語 (パイプライン中) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
マラヤーラム語_MA | マラヤーラム語 | マラヤーラム語 (パイプライン中) | ml_IN | メディアオーディオ | 40 | マラヤーラム語 (パイプライン) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
マラーティー語_CC_8 | マラーティー語 | マラーティー語 (パイプライン中) | mr_IN | コールセンター | 60 | マラーティー語 (パイプライン中) コールセンター データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
マラーティー語_GC | マラーティー語 | マラーティー語 (パイプライン中) | mr_IN | 一般的な会話 | 100 | マラーティー語 (パイプライン) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
マラーティ_MA | マラーティー語 | マラーティー語 (パイプライン中) | mr_IN | メディアオーディオ | 40 | マラーティー語 (パイプライン内) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
メキシカン_SM_48 | スペイン語(メキシコ) | スペイン語(メキシコ) | ES-MX | 48kHz | スクリプト化された独白 | 1,492 | メキシコのスペイン語の台本によるモノローグ | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1016 男性 1069 不明 95 | お問い合わせ | |
オランダ_SM_48 | オランダ語 | オランダ語 | NL-NL | 48kHz | スクリプト化された独白 | 1,205 | オランダ語の台本による独白 | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1285 男性 531 不明 3 | お問い合わせ | |
ニューヨーク英語_CC_8 | ニューヨーク英語 | ニューヨーク英語 | en_US | 8kHz | コールセンター | 103 | ニューヨーク英語コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 610、男性 532、不明 0 | お問い合わせ | |
ニューヨーク英語_GC_8 | ニューヨーク英語 | ニューヨーク英語 | en_US | 8kHz | 一般的な会話 | 107 | ニューヨーク英語一般会話データ | 二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性118、男性114、不明0 | お問い合わせ | |
ニューヨーク英語_MA_16 | ニューヨーク英語 | ニューヨーク英語 | en_US | 16kHz | メディアオーディオ | 140 | ニューヨーク英語メディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性66、男性230、不明11 | お問い合わせ | |
ニュージーランド_GC_8 | ニュージーランド英語 | ニュージーランド英語 | en_NZ | 8kHz | 一般的な会話 | 148 | ニュージーランド英語一般会話データ | 二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性167名、男性121名、不明4名 | お問い合わせ | |
ニュージーランド_MA_16 | ニュージーランド英語 | ニュージーランド英語 | en_NZ | 16kHz | メディアオーディオ | 400 | ニュージーランド英語メディアの音声 | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性367名、男性678名、不明26名 | お問い合わせ | |
オリヤ_CC_8 | オリヤー語 | Oriya (パイプライン中) | or_IN | コールセンター | 60 | Oriya (In Pipeline) コールセンター データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
Oriya_GC | オリヤー語 | Oriya (パイプライン中) | or_IN | 一般的な会話 | 100 | Oriya (In Pipeline) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
Oriya_MA | オリヤー語 | Oriya (パイプライン中) | or_IN | メディアオーディオ | 40 | Oriya (In Pipeline) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
ポーランド語_MA_16 | ポーランド語 | ポーランド語 | pl_PL | 16kHz | メディアオーディオ | 269 | ポーランドのメディア オーディオ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 173 男性 354 不明 6 | お問い合わせ | |
ポーランド語 Polish_SM_48 | ポーランド語(ポーランド) | ポーランド語(ポーランド) | PL-PL | 48kHz | スクリプト化された独白 | 1,482 | ポーランド語 ポーランド - スクリプトによるモノローグ | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1324 男性 701 不明 24 | お問い合わせ | |
パンジャブ語_CC_8 | パンジャブ語 | パンジャブ語 (パイプライン中) | パンジャブ語 | コールセンター | 60 | パンジャブ語 (パイプライン中) コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
パンジャブ語_GC | パンジャブ語 | パンジャブ語 (パイプライン中) | パンジャブ語 | 一般的な会話 | 100 | パンジャブ語 (パイプライン中) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
パンジャブ語_MA | パンジャブ語 | パンジャブ語 (パイプライン中) | パンジャブ語 | メディアオーディオ | 40 | パンジャブ語 (パイプライン) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
ロシア_SM_48 | ロシア語 | ロシア語 | RU-RU | 48kHz | スクリプト化された独白 | 2,398 | ロシアの脚本による独白 | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1689 男性 1937 不明 214 | お問い合わせ | |
スコットランド_GC_8 | スコットランド語 (英語訛り) | スコットランド語 (英語訛り) | ja_AB | 8kHz | 一般的な会話 | 292 | スコットランド一般会話データ | 二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性285名、男性260名、不明3名 | お問い合わせ | |
シンガポール_CC_8 | シンガポール英語 | シンガポール英語 | en_SG | 8kHz | コールセンター | 218 | シンガポールのコールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 2139 、男性 884 、不明 21 | お問い合わせ | |
シンガポール_MA_16 | シンガポール英語 | シンガポール英語 | en_SG | 16kHz | メディアオーディオ | 247 | シンガポールメディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性160、男性455、不明37 | お問い合わせ | |
南アフリカ英語_CC_8 | 南アフリカ英語 | 南アフリカ英語 | ja_ZA | 8kHz | コールセンター | 261 | 南アフリカ英語のコール センター データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1274 、男性 935 、不明 1 | お問い合わせ | |
南アフリカ英語_MA_16 | 南アフリカ英語 | 南アフリカ英語 | ja_ZA | 16kHz | メディアオーディオ | 251 | 南アフリカ英語メディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性235、男性432、不明36 | お問い合わせ | |
スワヒリ_CC_8 | スワヒリ語 | スワヒリ語 | sw_KE | 8kHz | コールセンター | 230 | スワヒリ語コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性611、男性833、不明0 | お問い合わせ | |
スワヒリ_MA_16 | スワヒリ語 | スワヒリ語 | sw_KE | 16kHz | メディアオーディオ | 265 | スワヒリ語メディアの音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性118、男性493、不明25 | お問い合わせ | |
スウェーデン語_CC_8 | スウェーデン語 | スウェーデン語 | sv_SE | 8kHz | コールセンター | 250 | スウェーデンのコールセンター データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性1581人、男性727人、不明2人 | お問い合わせ | |
スウェーデン語_MA_16 | スウェーデン語 | スウェーデン語 | sv_SE | 16kHz | メディアオーディオ | 278 | スウェーデンのメディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性195人、男性500人、不明21人 | お問い合わせ | |
タミル_CC_8 | タミル語 | タミル語 (パイプライン中) | ta_IN | コールセンター | 60 | タミル語 (パイプライン中) コールセンターのデータ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
タミル語_GC | タミル語 | タミル語 (パイプライン中) | ta_IN | 一般的な会話 | 100 | タミル語 (パイプライン) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
タミル語_MA | タミル語 | タミル語 (パイプライン中) | ta_IN | メディアオーディオ | 40 | タミル語 (パイプライン) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
テルグ語_GC_8 | テルグ語 | テルグ語 | te_IN | 8kHz | 一般的な会話 | 553 | テルグ語一般会話データ | 二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 574 、男性 564 、不明 0 | お問い合わせ | |
テルグ語_MA_16 | テルグ語 | テルグ語 | te_IN | 16kHz | メディアオーディオ | 648 | テルグ語メディアの音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性207、男性963、不明2 | お問い合わせ | |
テルグ_CC_8 | テルグ語 | テルグ語 (パイプライン中) | te_IN | コールセンター | 30 | テルグ語 (パイプライン中) コールセンター データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
テルグ語_GC | テルグ語 | テルグ語 (パイプライン中) | te_IN | 一般的な会話 | 50 | テルグ語 (パイプライン) 一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
テルグ語_MA | テルグ語 | テルグ語 (パイプライン中) | te_IN | メディアオーディオ | 20 | テルグ語 (パイプライン) メディア オーディオ データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | お問い合わせ | ||||
タイ_GC_8 | タイ語 | タイ語 | th_TH | 8kHz | 一般的な会話 | 183 | タイ語一般会話 | 二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、友人間で使用される非公式のレジスタ | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性338、男性96、不明8 | お問い合わせ | |
タイ語_MA_8 | タイ語 | タイ語 | th_TH | 16kHz | メディアオーディオ | 173 | タイメディアオーディオ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性143、男性502、不明26 | お問い合わせ | |
トルコ語 Turkey_SM_48 | トルコトルコ | トルコトルコ | TR-TR | 48kHz | スクリプト化された独白 | 2,027 | トルコトルコ | 5〜30秒の範囲に入る傾向がある単一発話の録音 | Mono | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性 1561 男性 1241 不明 31 | お問い合わせ | |
ベトナム語_GC_8 | ベトナム語 | ベトナム語 | vi_VN | 8kHz | 一般的な会話 | 295 | ベトナム語一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、北部(例、ハノイ)、中部、南部(例、ホーチミン市)。 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性400、男性380、不明2 | お問い合わせ | |
ベトナム語_MA_16 | ベトナム語 | ベトナム語 | vi_VN | 16kHz | メディアオーディオ | 257 | ベトナムメディア音声データ | インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分 | Mono | ウェブソーシング | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性249、男性200、不明45 | お問い合わせ | |
ウェルシュ_GC_8 | ウェールズ語 (英語アクセント) | ウェールズ語 (英語アクセント) | ja_WL | 8kHz | 一般的な会話 | 278 | ウェールズ一般会話データ | 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、 | デュアル | デスクトップ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 女性270、男性324、不明0 | お問い合わせ | |
英国英語_WW_16 | イギリス英語 | イギリス英語 | en_uk | 16kHz | ワードを起こす | 200スピーカー | ウェイクワード英国英語 | キーフレーズ データのコレクション
| 1チャンネル | モバイルアプリ | 5.0 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | 性別: 男性 50%、女性 50%、+/- 10%。 | お問い合わせ |
提供されるサービス
エキスパートのオーディオデータ収集は、包括的なAIセットアップのためのすべてのハンズオンデッキではありません。 Shaipでは、次のサービスを検討して、モデルを通常よりもはるかに普及させることもできます。
推奨リソース
提供すること
インテリジェントAIの音声注釈
音声注釈サービスは、当初から Shaip の強みでした。 最先端の音声注釈サービスを使用して、会話型 AI、チャットボット、音声認識エンジンを開発、トレーニング、改善します。
バイヤーガイド
バイヤーズガイド:会話型AIの完全ガイド
会話したチャットボットは、大量の音声認識データセットを使用してトレーニング、テスト、構築された高度な会話型AIシステムで実行されます。
データカタログ
既製の音声データ カタログとライセンス
AI プロジェクトの音声データには、さまざまな一般的なアプリケーションがあります。 音声認識に使用できる大量の高品質データを提供します。
独自のオーディオデータセットを構築したいですか?
社内の音声データ収集の専門家に連絡して、要件に最適なオーディオリポジトリを設定します
よくある質問(FAQ)
ML モデルの音声データ収集とは、話し言葉の音声録音を収集するプロセスを指します。 このコレクションは、機械学習アルゴリズム、特に人間の声の理解と処理を中心としたアルゴリズムのトレーニングと洗練に役立ちます。
自動音声認識 (ASR) 用の音声データを収集することを目的とする場合は、必要な言語、アクセント、音声の種類など、プロジェクト固有のニーズを定義することから始める必要があります。 これらのパラメータを設定した後、ユーザーのプライバシーを尊重するために必要な権限をすべて取得していることを確認してください。 次に、適切な録音デバイスまたはソフトウェアを使用して、クリアなオーディオ サンプルをキャプチャします。 各録音には、その転写またはその他の関連メタデータを使用して細心の注意を払って注釈を付け、簡単にアクセスできるように体系的に保存する必要があります。
機械学習における音声データセットは、話し言葉の認識、文字起こし、解釈に合わせたモデルのトレーニング、テスト、検証にとって極めて重要です。 このようなデータセットは、音声アシスタントや文字起こしサービスから音声生体認証に至るまで、無数のアプリケーションへの道を開きます。
多様な言語やアクセントから正確なデータを収集するには、希望する言語的背景を持つネイティブ スピーカーとの協力が不可欠です。 幅広い人口統計上のニュアンスをカバーする、多様で代表的なサンプルを目指します。 音声の一貫性を確保するために、統一された環境で標準化された録音機器を使用します。 そして重要なのは、特定の言語とアクセントを示す詳細な文字起こしとメタデータで各データ部分に注釈を付けることです。