今すぐ入手 50%オフ* 会話型AIの既製のデータセット

チャットボット、音声アシスタント、音声対応デバイス用の音声と音声のデータセット。

*期間限定オファー

  • 登録することで、Shaipに同意します 個人情報保護方針 および 利用規約 ShaipからB2Bマーケティングコミュニケーションを受け取ることに同意します。

業界リーダーからの信頼

詳細既成の言語データセットコールセンターの会話8khz *一般的な会話8khz *メディアとポッドキャスト16khz *発話/スクリプトモノローグ16khz *時間単位の総量対象となる方言オーディオ形式テキスト文字起こしフォーマットUse CaseソースCTA
スピーチアフリカーンス語アフリカーンス語オーディオデータセット6009001500アフリカで話されているアフリカーンス語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチアラビア語アラビア語オーディオデータセット80015002300湾岸諸国のアラビア語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ中国語中国語のオーディオデータセット20002000中国からの中国語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチデンマーク語デンマーク語のオーディオデータセット40060020003000デンマーク出身のデンマーク人wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチオランダ語オランダ語オーディオデータセット20002000オランダからのオランダ語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-AAVEアクセント英語-AAVE(アフリカ系アメリカ人英語)オーディオデータセット5005001000土語の多様性(AAVEとして知られることもあり、通常は労働者および中産階級のアフリカ系アメリカ人の大多数によって話されます)およびより標準的な多様性(通常は正式および公共の状況で中流階級のアフリカ系アメリカ人によって話されます)がより強調されています土語で。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-ボストン/ニューヨークアクセント英語-ボストン/ニューヨークオーディオデータセット225225350800これは、ボストン、ニューヨーク、フィラデルフィアの各都市とその周辺で話されているいくつかの地域のアクセントのコレクションです。 これらのアクセントは、地元の人以外の人と同じように聞こえるかもしれませんが、他のアメリカのアクセントとは異なります。 英語圏の他の地域とは異なるいくつかのローカル語彙にもかかわらず、これらのアクセントは他の場所で話されている英語と相互に理解できます。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-中国語のアクセント英語-中国語のアクセント付きオーディオデータセット150300450母国語として中国語を話し、ティーンエイジャー/大人として米国に移住/移住し、第二言語として英語を学んだスピーカー。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-ディープサウスアクセント英語-ディープサウスオーディオデータセット2752754501000(i)テキサスからの講演者。 (ii)ノースカロライナ、サウスカロライナ、ジョージア; (iii)ニューオーリンズ; (iv)フロリダパンハンドル; (v)テネシー州、アーカンソー州、ミシガン州。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-ヒスパニックアクセント英語-ヒスパニックアクセントオーディオデータセット400400800ヒスパニック英語とは、さまざまな国の遺産を持つヒスパニック系アメリカ人が話すさまざまなアメリカ英語を指します。 主な焦点は、メキシコ系アメリカ人、さまざまな出身国(メキシコ、プエルトリコ、ドミニカ共和国、エクアドル、キューバなど)のスピーカー、およびさまざまな地域(カリフォルニア、ニューヨーク、フロリダなど)からのものでした。 含まれているスピーカーは、第一言語としてスペイン語を話す人と、スペイン語を話すヒスパニック系のスピーカーが継承語を持っている人でした。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-ニュージーランドアクセント英語-ニュージーランドオーディオデータセット2507501000若いスピーカー(<40歳)と古いスピーカー(> 40歳)が同じ割合で混在している、両方の島のスピーカー。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-シンガポールアクセント英語-シンガポールオーディオデータセット4006001000標準シンガポール英語と口語シンガポール英語の両方。 異なる民族的背景(例えば、中国人、マレー人、インド人など)および異なる教育レベルのシンガポール人。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-南アフリカアクセント英語-南アフリカオーディオデータセット4006001000さまざまな社会経済的階級および民族学的背景(たとえば、ヨーロッパ、アフリカ、インド、または混合背景の南アフリカ人)の代表者。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-アイルランドのアクセント英語-アイルランド語オーディオデータセット500500アイルランドで話されている英語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-スコットランドアクセント英語-スコットランドのオーディオデータセット800800スコットランド人が話す英語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語-ウェールズアクセント英語-ウェールズ語オーディオデータセット800800ウェールズ英語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチフランス系カナダ人フランス系カナダ人のオーディオデータセット10001000カナダのフランス語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチヘブライ語ヘブライ語オーディオデータセット7507501500イスラエルのヘブライ語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチインドネシア語インドネシア語のオーディオデータセット100010002000インドネシア語バハサwavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ日本語日本語オーディオデータセット20002000日本からの日本人wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ韓国語韓国語オーディオデータセット10020015001800スピーカーは韓国中に広がった。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチマレー語マレー語オーディオデータセット5005001000マレーシアのマレー語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチメキシコスペイン語メキシコのスペイン語オーディオデータセット12501250メキシコ出身のメキシコ人wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチポーランド語ポーランド語のオーディオデータセット25020002250ポーランドからのポーランド語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチロシア語ロシア語のオーディオデータセット20002000ロシアからのロシア人wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチスワヒリ語スワヒリ語オーディオデータセット3506501000南アフリカとケニアのスワヒリ語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチスウェーデン語スウェーデン語のオーディオデータセット3506501000スウェーデンのスウェーデン語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ台湾中国語台湾の中国のオーディオデータセット10001000台湾からの中国語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチタイ語タイ語オーディオデータセット350450800友人間で使用される非公式の登録簿、wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチトルコ語トルコ語オーディオデータセット20002000トルコからのトルコ語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチベトナム語ベトナム語オーディオデータセット6004001000北部(例、ハノイ)、中部、南部(例、ホーチミン市)。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチヒンディー語ヒンディー語オーディオデータセット80020002800インドのヒンディー語、特に北、東、西の地域wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチヒングリッシュインド英語オーディオデータセット300500800成長する経済的機会のために国の金融ハブである都市インドの都市から収集されます。 そのような場所は、ノイダ、デリー、デラドゥン、チャンディーガル、ムンバイ、コルカタ、バンガロール、プネ、チェンナイ、ハイデラバードなどです。wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチ英語英語のオーディオデータセット700700wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチカンナダ語カンナダ語オーディオデータセット6010040200インド、カルナータカ州のカンナダ語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチマラヤーラム語マラヤーラム語オーディオデータセット6010040200ケララ州、ラクシャドウィープ、ポンディシェリのマラヤーラム語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチオリヤー語Oriyaオーディオデータセット6010040200オリッサ州、西ベンガル州、ジャールカンド州、チャッティースガル州の一部のオリヤー語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチパンジャブ語パンジャブ語オーディオデータセット6010040200インドのパンジャブ出身のパンジャブ人wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチタミル語タミル語オーディオデータセット60100240400インドのタミルナードゥ州出身のタミル語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチテルグ語テルグ語オーディオデータセット1009509502000インド、アーンドラプラデーシュ州のテルグ語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチベンガル語ベンガル語オーディオデータセット6010040200インド、西ベンガル出身のベンガル語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチグジャラート語グジャラート語オーディオデータセット6010040200インド、グジャラートのグジャラート語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチマラーティー語マラーティー語オーディオデータセット6010040200インド、マハラシュトラ州のマラーティー語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ
スピーチアッサム語アッサム語オーディオデータセット6010040200インド、アッサムのアッサム語wavファイル.jsonASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリングシャイプ

会話型AIに関する深い専門知識

会話型AI、チャットボット、仮想/デジタルアシスタントは、その背後にあるテクノロジーとデータと同じくらい賢いだけです。 Shaipでは、AIを生き生きとさせるために、実際の人々との会話を模倣する自然言語処理(NLP)用の多様なオーディオデータセットの幅広いセットを提供しています。 私たちの深い理解により、世界中の複数の言語の豊富で構造化されたデータセットを使用して、AI対応の音声モデルを最高の精度で構築およびローカライズすることができます。 お客様の要件に基づいて、多言語の音声収集、音声転写、および音声注釈サービスを提供すると同時に、目的の意図、発話、および人口統計の分布を完全にカスタマイズします。

スクリプトスピーチコレクション

自発的スピーチコレクション

音声データの文字起こし

データのラベル付けと注釈

Shaipを使用すると、会話型AIプラットフォームを正確にトレーニングできるため、次のことが可能になります。

  • 複数のチャネル間でシームレスに会話、テキストメッセージ、チャットを行うことができます。
  • チャット、音声トランスクリプト、トランザクションなどの形式で既存のインタラクションから学び、これらの学習に基づいて提案および会話します。
  • 人間のスピーチの背後にある意図を理解し、人間の言語を理解する際のあいまいさを取り除きます。
  • XNUMX対XNUMXで対話し、ユーザーを識別して過去の会話を記憶するようにトレーニングできます。

会話型AIトレーニングデータの世界的リーダー

100以上の言語のオーディオデータの時間–ソース、文字起こし、注釈付き

音声データライセンス

コールセンター、ディベート、一般会話、スピーチ、ポッドキャストなど、さまざまなドメインからの20以上のトピックの範囲をカバーする、40以上の言語と方言での55万時間以上のスピーチデータ。

音声データ収集

AI要件に合わせてカスタマイズされた、世界中の2以上の言語で、音声と音声のデータ(モノローグ、100人の会話、ヒューマンボットチャット)を収集します。

音声データの文字起こし

TAT、精度、および節約が保証された30,000人の協力者の強力な労働力による費用効果の高い音声転写または音声注釈

オーディオコレクションとオーディオアノテーションサービスを使用して、会話型AIアプリの開発を加速します

シャイプアドバンテージ

スケール

お客様の要件に基づいて、世界中のオーディオデータを複数の言語と方言で調達、スケーリング、配信できます。

専門性

私たちは、正確で偏りのないデータ収集、転記、およびゴールドスタンダードの注釈に関する適切な専門知識を持っています。

ネットワーク

AIトレーニングモデルとスケールアップサービスを構築するためのデータ収集タスクをすばやく割り当てることができる30,000人以上の資格のある貢献者のネットワーク。

テクノロジー

独自のツールとプロセスを備えた完全なAIベースのプラットフォームがあり、24時間年中無休でワークフロー管理を活用できます。

アジリティ

お客様の要件の変化に非常に迅速に適応し、競合他社の5〜10倍の速さで高品質の音声データを使用してAI開発を加速するのに役立ちます。

セキュリティ

私たちはデータのセキュリティとプライバシーを最重要視し、高度に規制された機密データの取り扱いも認定されています。

私たちが最善を尽くす

トレーニングデータ

ほんのわずかな時間で最高品質のラベル付きデータを取得します。 これはゴールドスタンダードであり、信頼性が高く、最高レベルのパフォーマンスを達成するためにAIおよびMLモデルをトレーニングする準備ができています。

もっと詳しく知る

データ収集、ラベリング、注釈

Shaipを使用すると、品質データの収集、転記、および注釈付けにおいて15年以上の実績のある専門知識を得ることができます。 グローバルな労働力により、世界中からデータを収集し、データに必要なスキルレベルと専門知識を備えたラベリングおよび注釈サービスを提供できます。

もっと詳しく知る

データカタログとライセンス

数百万のデータセットの膨大なインベントリを使用して、必要に応じて収集および整理できます。 その後、特定のAIおよびMLの使用要件に合わせてその品質データのライセンスを取得できます。 さらに、このデータは、自分で作成した場合の数分のXNUMXのコストで利用できます。

もっと詳しく知る

独自のデータセットを作成したいですか?

独自のAIソリューションのカスタムデータセットを収集する方法については、今すぐお問い合わせください。