AI 向けの最も信頼できる音声データ収集サービス

音声および音声データ収集サービスを使用して、高品質の会話データを使用してNLPモデル、VA、TTSプロトタイプなどをトレーニングします

音声データの収集

ボトルネックのないオーディオ データ パイプラインを発見する

注目のクライアント

プロフェッショナルオーディオ/音声データ収集サービス

任意の主題。 任意のシナリオ。

Shaip の専門知識は、さまざまな AI/ML 要件に合わせて設計された高品質の音声データセットの作成にあります。当社は幅広い言語を提供し、多様な設定で記録することで、データセットを包括的で適応性のあるものにしています。 ○私は、可能な限り最小限の時間で、最大量のカスタム音声データをモデルに供給することに重点を置いています。 私たちが参加することで、次のことが期待できます。 

スピーチコレクション
  • 精度を向上させるために厳選された高品質の多言語音声/音声データ
  • t に対するドメイン特異性の可能な限り最高レベル多様なシナリオをターゲットに 
  •  多様な人口統計と業種に合わせてMLモデルをスケーリングする
  • 録音環境: スタジオ品質、 バックグラウンドノイズを最小限に抑えたクリアなオ​​ーディオを特徴とし、 自然環境、録音には環境音を組み込んで現実世界の状況を模倣します。

100+

か国

55 +

スピーチ時間のデータ

250+

プロジェクト

60+

言語 (100 以上の方言)

8 / 16 / 44 / 48 kHz

サンプリングレート

当社の専門知識

音声データを調整してよりスマートな NLP モデルを実現

Shaipは、100以上の言語でエンドツーエンドの音声/音声データ収集サービスを提供し、音声対応テクノロジーが世界中の多様なオーディエンスに対応できるようにします。 私たちはあらゆる範囲と規模のプロジェクトに取り組むことができます。 既存の既製のオーディオデータセットのライセンス供与から、カスタムオーディオデータ収集の管理、オーディオの文字起こしと注釈まで。 音声データ収集プロジェクトの規模に関係なく、方言、トーン、言語を対象とする高品質のNLPデータセットを構築するために、ニーズに合わせて音声収集サービスをカスタマイズできます。 音声対応のインテリジェントなセットアップのために、幅広い音声データセットと音声データ収集リソースから選択してください。

独白スピーチ

モノローグの台本と自発的なスピーチ

単一の話者からの音声を処理することに重点を置いています。スクリプト化されたプロンプトを利用して単一チャンネルのオーディオ ファイルにフィードし、その個人に特有のユニークな発話パターン、トーン、ニュアンスを確実にキャプチャします。

対話スピーチ

台本に沿った対話と自発的なスピーチ

2 人の対話。デュアルチャネル ファイルと文字起こしされたリソースを介して多言語で公開され、現実世界の会話や対話を再現します。

多者間の会話

グループ/複数パーティ
会話

複数人でのディスカッション、グループのダイナミクス、重複、さまざまな口調をキャプチャして、音声モデルを正確にトレーニングします。

ウェイクワード発話コレクション

ウェイクワード/キーフレーズ/発話コレクション

高度な自然言語処理と理解のために、多様で豊富な本物の発話を使用して、キー フレーズ、ウェイク ワード、または同様の意味を持つ発話を識別するように AI をトレーニングします。

音響音声

音響データ
収集

より広い音響範囲をカバーしながら、レストラン、オフィス、家庭など、さまざまな環境や言語からのスタジオ品質のオーディオ データを専門的に録音できます。

自動音声認識

自動音声認識(ASR)

さまざまな人口統計からの最先端の多様な音声/音声データセットにアクセスできるようにすることで、自動音声認識(ASR)システムの精度を向上させます。

自然言語の発話

多言語スピーチ/オーディオトレーニングデータ

世界中の当社の熟練した言語専門家が、さまざまな言語や方言の多言語音声/音声データを提供します。この取り組みは、グローバルなコミュニケーションを促進し、言語の壁を越え、より包括的で効果的な AI ソリューションに貢献します。

デジタル仮想アシスタント

テキストを音声に変換する
(TTS)

当社のグローバル従業員の支援を受けてテキスト読み上げ (TTS) 多言語モデルを構築します。従業員は 150 以上の言語と方言の音声データの収集を支援し、車載制御からチャットボットや学習ソリューションに至るまで AI モデルを高度な機能で強化します。高品質の音声データ。

コールセンターの録音

センターに電話
会話

スペイン語、ドイツ語、アメリカ英語、ベンガル語、日本語、中国語、ヒンディー語などの多数の言語をサポートする、エージェントとクライアント間の本物のやりとり。

導入事例

3 言語にわたる 8 時間を超えるデータを含む会話型 AI データセット

インドの言語向けの多言語プラットフォームの構築を検討していたこのクライアントは、Shaip と提携して、インドの複数の言語で大規模なデータセットを収集、セグメント化、転記しました。これは、クライアントの革新的な新しいプラットフォームを強化できる効果的な音声モデルの開発に役立ちます。

問題: インドの 3,000 つの言語で収集された 8 時間以上の音声データが、自動音声認識を開発するために分割および転写されました。

解決法: データ収集、セグメンテーション、転写を提供し、メタデータを含む JSON ファイルを配信しました。私たちは、クライアントの音声テクノロジー プロジェクトのために、インドの 3000 つの言語で 8 時間の音声データを大規模に収集しました。

音声データ収集の事例

信頼できる音声データ収集パートナーとしてShaipを選択する理由

のワークプ

のワークプ

専任の訓練を受けたチーム:

  • データ作成、ラベリング、QAのための30,000人以上の協力者
  • 資格のあるプロジェクト管理チーム
  • 経験豊富な製品開発チーム
  • タレントプールソーシング&オンボーディングチーム
プロセス

プロセス

最高のプロセス効率が保証されます:

  • 堅牢な6シックスシグマステージゲートプロセス
  • シックスシグマ黒帯の専任チーム–主要なプロセス所有者と品質コンプライアンス
  • 継続的改善とフィードバックループ
プラットフォーム

プラットフォーム

特許取得済みのプラットフォームには次のような利点があります。

  • Webベースのエンドツーエンドプラットフォーム
  • 非の打ちどころのない品質
  • より速いTAT
  • シームレスな配信

既成のスピーチ/オーディオデータセット

詳細言語データセットサンプリング速度データセットのタイプ合計オーディオ時間短い説明データセットの説明音声チャンネルレコーディングプラットフォームWER(%)オーディオ形式音声文字変換フォーマットUse Caseスピーカーの数CTA
スピーチen_US_CC_8アフリカ系アメリカ人の言語アフリカ系アメリカ人の言語en_US8kHzコールセンター211アフリカ系アメリカ人の言葉によるコールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:612名、男性:1242名、不明:12名
スピーチen_US_MA_16アフリカ系アメリカ人の言語アフリカ系アメリカ人の言語en_US16kHzメディアオーディオ154アフリカ系アメリカ人の言語メディア データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:151名、男性:150名、不明:10名
スピーチアフリカーンス_GC_8アフリカーンス語アフリカーンス語af_ZA8kHz一般的な会話368アフリカーンス語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、アフリカーンス語はアフリカで話されていますデュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:502名、男性:390名、不明:2名
スピーチアフリカーンス_MA_16アフリカーンス語アフリカーンス語af_ZA16kHzメディアオーディオ658アフリカーンス語のメディア ファイルインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:750名、男性:1278名、不明:52名
スピーチアラビア語_GC_8アラビア語アラビア語ar_AE8kHz一般的な会話292アラビア語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、湾岸諸国からのアラビア語デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:171名、男性:534名、不明:1名
スピーチアラビア語_SM_48アラビア語アラビア語ar-SA48kHzスクリプト化された独白1,947アラビア語スクリプトの独白5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 838 男性 1209 不明 78
スピーチアッサム_CC_8アッサム語アッサム(パイプライン中) as_INコールセンター60アッサム(パイプライン中)コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチアッサムGCアッサム語アッサム(パイプライン中) as_IN一般的な会話100アッサム語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチアッサム_MAアッサム語アッサム(パイプライン中) as_INメディアオーディオ40アッサム (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチベンガル_CC_8ベンガル語ベンガル語 (パイプライン中) bn_INコールセンター60ベンガル語 (パイプライン中) コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチベンガル_GCベンガル語ベンガル語 (パイプライン中) bn_IN一般的な会話100ベンガル語 (パイプライン中) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチベンガル語_MAベンガル語ベンガル語 (パイプライン中) bn_INメディアオーディオ40ベンガル語 (パイプライン中) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチボストン_CC_8ボストン英語ボストン英語en_US8kHzコールセンター177ボストン コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:605名、男性:711名、不明:0名
スピーチボストン_GC_8ボストン英語ボストン英語en_US8kHz一般的な会話32ボストン一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:53名、男性:83名、不明:0名
スピーチボストン_MA_16ボストン英語ボストン英語en_US16kHzメディアオーディオ93ボストン・メディアの音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:43名、男性:181名、不明:2名
スピーチカナダ人_SM_48カナダのフランス語カナダのフランス語FR-CA48kHzスクリプト化された独白1,222カナダのフランス語5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 974 男性 631 不明 1
スピーチ中国語_CC_8中国語英語中国語英語en_US8kHzコールセンター169中国のコールセンターデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:1790、男性:523、不明:13
スピーチ中国語_MA_16中国語英語中国語英語en_US16kHzメディアオーディオ249中国メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:126、男性:346、不明:6
スピーチ簡体字中国語_SM_48簡体字中国語簡体字中国語ZH-CN48kHzスクリプト化された独白2,762簡体字中国語5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1920 男性 1535 不明 270
スピーチ繁体字中国語_SM_48中国語(繁体字)中国語(繁体字)zh-TW48kHzスクリプト化された独白1,028中国語(繁体字)5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1069 男性 262 不明 3
スピーチデンマーク語_GC_8デンマーク語デンマーク語da_DK8kHz一般的な会話372デンマーク語一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:311名、男性:417名、不明:0名
スピーチデンマーク語_MA_16デンマーク語デンマーク語da_DK16kHzメディアオーディオ664デンマークのメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性:369名、男性:864名、不明:27名
スピーチデンマーク語_SM_48デンマーク語デンマーク語DA-DK48kHzスクリプト化された独白2,579デンマーク語の台本付きモノローグデンマークのデンマーク語で、5〜30秒の範囲に収まる傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1551 男性 1233 不明 42
スピーチ英語ディープサウス_CC_8イングリッシュディープサウスイングリッシュディープサウスen_US8kHzコールセンター151English Deep South コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 221 、男性 1004 、不明 7
スピーチ英語ディープサウス_GC_8イングリッシュディープサウスイングリッシュディープサウスen_US8kHz一般的な会話56英語ディープサウス一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性99、男性31、不明0
スピーチ英語ディープサウス_MA_16イングリッシュディープサウスイングリッシュディープサウスen_US16kHzメディアオーディオ266英語のディープ サウス メディアの音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性204、男性356、不明21
スピーチドイツ語_CC_8ドイツ語ドイツ語デデ8kHzコールセンター64ドイツのコールセンター データ 「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、Monoデスクトップwavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 478 男性 1440 不明 0
スピーチドイツ語_IVR_8ドイツ語ドイツ語デデ8kHz IVR200ドイツの IVR データヒューマン トゥ マシン。 TTS プロンプト (「ご用件はありますか」など) の後に人間の自発的な応答が続く IVR タイプのフローMonoデスクトップwavファイル .jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング 女性 10115 男性 8750 不明 0
スピーチグジャラート_CC_8グジャラート語グジャラート語 (パイプライン中) gu_INコールセンター60グジャラート語 (パイプライン中) コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチグジャラート語_GCグジャラート語グジャラート語 (パイプライン中) gu_IN一般的な会話100グジャラート語 (パイプライン中) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチグジャラート州_MAグジャラート語グジャラート語 (パイプライン中) gu_INメディアオーディオ40グジャラート語 (パイプライン中) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチヘブライ語_一般会話_8ヘブライ語ヘブライ語彼_IL8kHz一般的な会話399ヘブライ語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、イスラエルのヘブライ語デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性414名、男性399名、不明1名
スピーチヘブライ語_MA_16ヘブライ語ヘブライ語彼_IL16kHzメディアオーディオ427ヘブライ語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性361名、男性513名、不明13名
スピーチヒンディー語_MA_16ヒンディー語ヒンディー語こんにちは16kHzメディアオーディオ219ヒンディー語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性83名、男性309名、不明0名
スピーチヒンディー語_SM_48ヒンディー語ヒンディー語ハイイン48kHzスクリプト化された独白2,867ヒンディー語スクリプトのモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1977 男性 1864 不明 147
スピーチヒングリッシュ_CC_8ヒングリッシュヒングリッシュhg_IN8kHzコールセンター208HINGLISH コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 822、男性 1262 、不明 0
スピーチHINGLISH_MA_16ヒングリッシュヒングリッシュhg_IN16kHzメディアオーディオ216HINGLISH メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性75、男性380、不明0
スピーチヒスパニック系_CC_8ヒスパニック英語ヒスパニック英語en_US8kHzコールセンター212ヒスパニック系コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性822、男性1262、不明0
スピーチヒスパニック_MA_16ヒスパニック英語ヒスパニック英語en_US16kHzメディアオーディオ155ヒスパニック コール メディア オーディオインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性140、男性219、不明5
スピーチインドネシア語_GC_8インドネシア語インドネシア語やった8kHz一般的な会話496インドネシア語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、インドネシア語デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性524、男性454、不明2
スピーチインドネシア語_MA_16インドネシア語インドネシア語やった16kHzメディアオーディオ643インドネシアのメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性746、男性1507、不明129
スピーチアイリッシュ_GC_8アイリッシュアイリッシュen_IE8kHz一般的な会話192アイルランド一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 213 、男性 153 、不明 0
スピーチ日本語_SM_48日本語日本語JA-JP48kHzスクリプト化された独白2,335日本語台本のモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1460 男性 1221 不明 194
スピーチカンナダ語_CC_8カンナダ語カンナダ語 (パイプライン) kn_INコールセンター60カンナダ語 (パイプライン) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチカンナダ語_GCカンナダ語カンナダ語 (パイプライン) kn_IN一般的な会話100カンナダ語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチカンナダ語_MAカンナダ語カンナダ語 (パイプライン) kn_INメディアオーディオ40カンナダ語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチ韓国語_CC_8韓国語韓国語ko_KR8kHzコールセンター107韓国コールセンターデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性1086名、男性210名、不明4名
スピーチ韓国語_MA_16韓国語韓国語ko_KR16kHzメディアオーディオ204韓国メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性70名 男性303名 不明25名
スピーチ韓国人_SM_48韓国語韓国語ko-KR48kHzスクリプト化された独白1,955韓国語台本のモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1195 男性 1134 不明 122
スピーチマレー_GC_8マレー語マレー語ms_MY8kHz一般的な会話266マレー語一般会話データ二人の間の台本なしの電話での会話。 約音声再生時間(範囲)-15〜60分、マレーシアのマレー語デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 316 、男性 176 、不明 0
スピーチマレー_MA_16マレー語マレー語ms_MY16kHzメディアオーディオ344マレー語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性236、男性626、不明47
スピーチマラヤーラム語_CC_8マラヤーラム語マラヤーラム語 (パイプライン中) ml_INコールセンター60マラヤーラム語 (パイプライン中) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチマラヤーラム語_GCマラヤーラム語マラヤーラム語 (パイプライン中) ml_IN一般的な会話100マラヤーラム語 (パイプライン中) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチマラヤーラム語_MAマラヤーラム語マラヤーラム語 (パイプライン中) ml_INメディアオーディオ40マラヤーラム語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチマラーティー語_CC_8マラーティー語マラーティー語 (パイプライン中) mr_INコールセンター60マラーティー語 (パイプライン中) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチマラーティー語_GCマラーティー語マラーティー語 (パイプライン中) mr_IN一般的な会話100マラーティー語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチマラーティ_MAマラーティー語マラーティー語 (パイプライン中) mr_INメディアオーディオ40マラーティー語 (パイプライン内) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチメキシカン_SM_48スペイン語(メキシコ)スペイン語(メキシコ)ES-MX48kHzスクリプト化された独白1,492メキシコのスペイン語の台本によるモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1016 男性 1069 不明 95
スピーチオランダ_SM_48オランダ語オランダ語NL-NL48kHzスクリプト化された独白1,205オランダ語の台本による独白5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1285 男性 531 不明 3
スピーチニューヨーク英語_CC_8ニューヨーク英語ニューヨーク英語en_US8kHzコールセンター103ニューヨーク英語コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 610、男性 532、不明 0
スピーチニューヨーク英語_GC_8ニューヨーク英語ニューヨーク英語en_US8kHz一般的な会話107ニューヨーク英語一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性118、男性114、不明0
スピーチニューヨーク英語_MA_16ニューヨーク英語ニューヨーク英語en_US16kHzメディアオーディオ140ニューヨーク英語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性66、男性230、不明11
スピーチニュージーランド_GC_8ニュージーランド英語 ニュージーランド英語 en_NZ8kHz一般的な会話148ニュージーランド英語一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性167名、男性121名、不明4名
スピーチニュージーランド_MA_16ニュージーランド英語 ニュージーランド英語 en_NZ16kHzメディアオーディオ400ニュージーランド英語メディアの音声インタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性367名、男性678名、不明26名
スピーチオリヤ_CC_8オリヤー語Oriya (パイプライン中) or_INコールセンター60Oriya (In Pipeline) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチOriya_GCオリヤー語Oriya (パイプライン中) or_IN一般的な会話100Oriya (In Pipeline) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチOriya_MAオリヤー語Oriya (パイプライン中) or_INメディアオーディオ40Oriya (In Pipeline) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチポーランド語_MA_16ポーランド語ポーランド語pl_PL16kHzメディアオーディオ269ポーランドのメディア オーディオインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 173 男性 354 不明 6
スピーチポーランド語 Polish_SM_48ポーランド語(ポーランド)ポーランド語(ポーランド)PL-PL48kHzスクリプト化された独白1,482ポーランド語 ポーランド - スクリプトによるモノローグ5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1324 男性 701 不明 24
スピーチパンジャブ語_CC_8パンジャブ語パンジャブ語 (パイプライン中) パンジャブ語コールセンター60パンジャブ語 (パイプライン中) コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチパンジャブ語_GCパンジャブ語パンジャブ語 (パイプライン中) パンジャブ語一般的な会話100パンジャブ語 (パイプライン中) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチパンジャブ語_MAパンジャブ語パンジャブ語 (パイプライン中) パンジャブ語 メディアオーディオ40パンジャブ語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチロシア_SM_48ロシア語ロシア語RU-RU48kHzスクリプト化された独白2,398ロシアの脚本による独白5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1689 男性 1937 不明 214
スピーチスコットランド_GC_8スコットランド語 (英語訛り)スコットランド語 (英語訛り)ja_AB8kHz一般的な会話292スコットランド一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性285名、男性260名、不明3名
スピーチシンガポール_CC_8シンガポール英語シンガポール英語en_SG8kHzコールセンター218シンガポールのコールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 2139 、男性 884 、不明 21
スピーチシンガポール_MA_16シンガポール英語シンガポール英語en_SG16kHzメディアオーディオ247シンガポールメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性160、男性455、不明37
スピーチ南アフリカ英語_CC_8南アフリカ英語南アフリカ英語ja_ZA8kHzコールセンター261南アフリカ英語のコール センター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1274 、男性 935 、不明 1
スピーチ南アフリカ英語_MA_16南アフリカ英語南アフリカ英語ja_ZA16kHzメディアオーディオ251南アフリカ英語メディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性235、男性432、不明36
スピーチスワヒリ_CC_8スワヒリ語スワヒリ語sw_KE8kHzコールセンター230スワヒリ語コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性611、男性833、不明0
スピーチスワヒリ_MA_16スワヒリ語スワヒリ語sw_KE16kHzメディアオーディオ265スワヒリ語メディアの音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性118、男性493、不明25
スピーチスウェーデン語_CC_8スウェーデン語スウェーデン語sv_SE8kHzコールセンター250スウェーデンのコールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性1581人、男性727人、不明2人
スピーチスウェーデン語_MA_16スウェーデン語スウェーデン語sv_SE16kHzメディアオーディオ278スウェーデンのメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性195人、男性500人、不明21人
スピーチタミル_CC_8タミル語タミル語 (パイプライン中) ta_INコールセンター60タミル語 (パイプライン中) コールセンターのデータ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチタミル語_GCタミル語タミル語 (パイプライン中) ta_IN一般的な会話100タミル語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチタミル語_MAタミル語 タミル語 (パイプライン中) ta_INメディアオーディオ40タミル語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチテルグ語_GC_8テルグ語テルグ語te_IN8kHz一般的な会話553テルグ語一般会話データ二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、 デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 574 、男性 564 、不明 0
スピーチテルグ語_MA_16テルグ語テルグ語te_IN16kHzメディアオーディオ648テルグ語メディアの音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性207、男性963、不明2
スピーチテルグ_CC_8テルグ語テルグ語 (パイプライン中) te_INコールセンター30テルグ語 (パイプライン中) コールセンター データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチテルグ語_GCテルグ語テルグ語 (パイプライン中) te_IN一般的な会話50テルグ語 (パイプライン) 一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチテルグ語_MAテルグ語テルグ語 (パイプライン中) te_INメディアオーディオ20テルグ語 (パイプライン) メディア オーディオ データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分ウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング
スピーチタイ_GC_8タイ語タイ語th_TH8kHz一般的な会話183タイ語一般会話二人の間の台本なしの電話での会話。 約オーディオ持続時間(範囲)-15〜60分、友人間で使用される非公式のレジスタデュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性338、男性96、不明8
スピーチタイ語_MA_8タイ語タイ語th_TH16kHzメディアオーディオ173タイメディアオーディオインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性143、男性502、不明26
スピーチトルコ語 Turkey_SM_48トルコトルコトルコトルコTR-TR48kHzスクリプト化された独白2,027トルコトルコ5〜30秒の範囲に入る傾向がある単一発話の録音Monoモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性 1561 男性 1241 不明 31
スピーチベトナム語_GC_8ベトナム語ベトナム語vi_VN8kHz一般的な会話295ベトナム語一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、北部(例、ハノイ)、中部、南部(例、ホーチミン市)。デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性400、男性380、不明2
スピーチベトナム語_MA_16ベトナム語ベトナム語vi_VN16kHzメディアオーディオ257ベトナムメディア音声データインタビュー、ポッドキャストなどのライセンス可能なパブリックドメインのオーディオ/ビデオファイル-1〜5人。 約音声再生時間(範囲)15〜60分Monoウェブソーシング5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性249、男性200、不明45
スピーチウェルシュ_GC_8ウェールズ語 (英語アクセント)ウェールズ語 (英語アクセント)ja_WL8kHz一般的な会話278ウェールズ一般会話データ「エージェント」と「顧客」の間の台本なしの合成電話会話、約。 音声再生時間(範囲)5〜15分、デュアルデスクトップ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング女性270、男性324、不明0
スピーチ英国英語_WW_16イギリス英語イギリス英語en_uk16kHzワードを起こす200スピーカーウェイクワード英国英語キーフレーズ データのコレクション
  • 200スピーカー
  • スピーカーごとに 4 つの固有のキーフレーズ
  • 固有のキーフレーズごとに 25 ~ 30 の繰り返しキーフレーズの録音
  • 一意のキーフレーズごとに 25 ~ 30 個のオーディオ ファイル
  • 話者ごとに合計 120 の録音された発話
1チャンネルモバイルアプリ5.0wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング性別: 男性 50%、女性 50%、+/- 10%。

提供されるサービス

エキスパートのオーディオデータ収集は、包括的なAIセットアップのためのすべてのハンズオンデッキではありません。 Shaipでは、次のサービスを検討して、モデルを通常よりもはるかに普及させることもできます。

テキストデータ収集

テキストデータ収集
サービス

Shaipコグニティブデータ収集サービスの真の価値は、非構造化データ内で見つかった重要な情報のロックを解除するための鍵を組織に提供することです。

画像データ収集

画像データ収集サービス

コンピュータビジョンモデルがすべての画像を正確に識別し、将来の次世代AIモデルをシームレスにトレーニングできるようにします

映像データ収集

ビデオデータ収集サービス

次に、オブジェクト、個人、抑止力、およびその他の視覚要素を完全に識別するためにモデルをトレーニングするために、NLPとともにコンピュータービジョンに焦点を合わせます。

シャイプにお問い合わせください

独自のオーディオデータセットを構築したいですか?

社内の音声データ収集の専門家に連絡して、要件に最適なオーディオリポジトリを設定します

  • 登録することで、Shaipに同意します 個人情報保護方針 および 利用規約 ShaipからB2Bマーケティングコミュニケーションを受け取ることに同意します。

ML モデルの音声データ収集とは、話し言葉の音声録音を収集するプロセスを指します。 このコレクションは、機械学習アルゴリズム、特に人間の声の理解と処理を中心としたアルゴリズムのトレーニングと洗練に役立ちます。

自動音声認識 (ASR) 用の音声データを収集することを目的とする場合は、必要な言語、アクセント、音声の種類など、プロジェクト固有のニーズを定義することから始める必要があります。 これらのパラメータを設定した後、ユーザーのプライバシーを尊重するために必要な権限をすべて取得していることを確認してください。 次に、適切な録音デバイスまたはソフトウェアを使用して、クリアなオ​​ーディオ サンプルをキャプチャします。 各録音には、その転写またはその他の関連メタデータを使用して細心の注意を払って注釈を付け、簡単にアクセスできるように体系的に保存する必要があります。

機械学習における音声データセットは、話し言葉の認識、文字起こし、解釈に合わせたモデルのトレーニング、テスト、検証にとって極めて重要です。 このようなデータセットは、音声アシスタントや文字起こしサービスから音声生体認証に至るまで、無数のアプリケーションへの道を開きます。

多様な言語やアクセントから正確なデータを収集するには、希望する言語的背景を持つネイティブ スピーカーとの協力が不可欠です。 幅広い人口統計上のニュアンスをカバーする、多様で代表的なサンプルを目指します。 音声の一貫性を確保するために、統一された環境で標準化された録音機器を使用します。 そして重要なのは、特定の言語とアクセントを示す詳細な文字起こしとメタデータで各データ部分に注釈を付けることです。