今すぐ入手 50%オフ* 会話型AIの既製のデータセット
チャットボット、音声アシスタント、音声対応デバイス用の音声と音声のデータセット。
*期間限定オファー
業界リーダーからの信頼
詳細 | キーワード | 既成の言語データセット | コールセンターの会話8khz * | 一般的な会話8khz * | メディアとポッドキャスト16khz * | 発話/スクリプトモノローグ16khz * | 時間単位の総量 | 対象となる方言 | オーディオ形式 | テキスト文字起こしフォーマット | Use Case | ソース | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
アフリカーンス語 | アフリカーンス語オーディオデータセット | 600 | 900 | 1500 | アフリカで話されているアフリカーンス語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
アラビア語 | アラビア語オーディオデータセット | 800 | 1500 | 2300 | 湾岸諸国のアラビア語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
中国語 | 中国語のオーディオデータセット | 2000 | 2000 | 中国からの中国語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
デンマーク語 | デンマーク語のオーディオデータセット | 400 | 600 | 2000 | 3000 | デンマーク出身のデンマーク人 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
オランダ語 | オランダ語オーディオデータセット | 2000 | 2000 | オランダからのオランダ語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
英語-AAVEアクセント | 英語-AAVE(アフリカ系アメリカ人英語)オーディオデータセット | 500 | 500 | 1000 | 土語の多様性(AAVEとして知られることもあり、通常は労働者および中産階級のアフリカ系アメリカ人の大多数によって話されます)およびより標準的な多様性(通常は正式および公共の状況で中流階級のアフリカ系アメリカ人によって話されます)がより強調されています土語で。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
英語-ボストン/ニューヨークアクセント | 英語-ボストン/ニューヨークオーディオデータセット | 225 | 225 | 350 | 800 | これは、ボストン、ニューヨーク、フィラデルフィアの各都市とその周辺で話されているいくつかの地域のアクセントのコレクションです。 これらのアクセントは、地元の人以外の人と同じように聞こえるかもしれませんが、他のアメリカのアクセントとは異なります。 英語圏の他の地域とは異なるいくつかのローカル語彙にもかかわらず、これらのアクセントは他の場所で話されている英語と相互に理解できます。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
英語-中国語のアクセント | 英語-中国語のアクセント付きオーディオデータセット | 150 | 300 | 450 | 母国語として中国語を話し、ティーンエイジャー/大人として米国に移住/移住し、第二言語として英語を学んだスピーカー。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
英語-ディープサウスアクセント | 英語-ディープサウスオーディオデータセット | 275 | 275 | 450 | 1000 | (i)テキサスからの講演者。 (ii)ノースカロライナ、サウスカロライナ、ジョージア; (iii)ニューオーリンズ; (iv)フロリダパンハンドル; (v)テネシー州、アーカンソー州、ミシガン州。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
英語-ヒスパニックアクセント | 英語-ヒスパニックアクセントオーディオデータセット | 400 | 400 | 800 | ヒスパニック英語とは、さまざまな国の遺産を持つヒスパニック系アメリカ人が話すさまざまなアメリカ英語を指します。 主な焦点は、メキシコ系アメリカ人、さまざまな出身国(メキシコ、プエルトリコ、ドミニカ共和国、エクアドル、キューバなど)のスピーカー、およびさまざまな地域(カリフォルニア、ニューヨーク、フロリダなど)からのものでした。 含まれているスピーカーは、第一言語としてスペイン語を話す人と、スペイン語を話すヒスパニック系のスピーカーが継承語を持っている人でした。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
英語-ニュージーランドアクセント | 英語-ニュージーランドオーディオデータセット | 250 | 750 | 1000 | 若いスピーカー(<40歳)と古いスピーカー(> 40歳)が同じ割合で混在している、両方の島のスピーカー。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
英語-シンガポールアクセント | 英語-シンガポールオーディオデータセット | 400 | 600 | 1000 | 標準シンガポール英語と口語シンガポール英語の両方。 異なる民族的背景(例えば、中国人、マレー人、インド人など)および異なる教育レベルのシンガポール人。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
英語-南アフリカアクセント | 英語-南アフリカオーディオデータセット | 400 | 600 | 1000 | さまざまな社会経済的階級および民族学的背景(たとえば、ヨーロッパ、アフリカ、インド、または混合背景の南アフリカ人)の代表者。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
英語-アイルランドのアクセント | 英語-アイルランド語オーディオデータセット | 500 | 500 | アイルランドで話されている英語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
英語-スコットランドアクセント | 英語-スコットランドのオーディオデータセット | 800 | 800 | スコットランド人が話す英語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
英語-ウェールズアクセント | 英語-ウェールズ語オーディオデータセット | 800 | 800 | ウェールズ英語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
フランス系カナダ人 | フランス系カナダ人のオーディオデータセット | 1000 | 1000 | カナダのフランス語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
ヘブライ語 | ヘブライ語オーディオデータセット | 750 | 750 | 1500 | イスラエルのヘブライ語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
インドネシア語 | インドネシア語のオーディオデータセット | 1000 | 1000 | 2000 | インドネシア語バハサ | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
日本語 | 日本語オーディオデータセット | 2000 | 2000 | 日本からの日本人 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
韓国語 | 韓国語オーディオデータセット | 100 | 200 | 1500 | 1800 | スピーカーは韓国中に広がった。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
マレー語 | マレー語オーディオデータセット | 500 | 500 | 1000 | マレーシアのマレー語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
メキシコスペイン語 | メキシコのスペイン語オーディオデータセット | 1250 | 1250 | メキシコ出身のメキシコ人 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
ポーランド語 | ポーランド語のオーディオデータセット | 250 | 2000 | 2250 | ポーランドからのポーランド語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
ロシア語 | ロシア語のオーディオデータセット | 2000 | 2000 | ロシアからのロシア人 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
スワヒリ語 | スワヒリ語オーディオデータセット | 350 | 650 | 1000 | 南アフリカとケニアのスワヒリ語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
スウェーデン語 | スウェーデン語のオーディオデータセット | 350 | 650 | 1000 | スウェーデンのスウェーデン語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
台湾中国語 | 台湾の中国のオーディオデータセット | 1000 | 1000 | 台湾からの中国語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
タイ語 | タイ語オーディオデータセット | 350 | 450 | 800 | 友人間で使用される非公式の登録簿、 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
トルコ語 | トルコ語オーディオデータセット | 2000 | 2000 | トルコからのトルコ語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||||
ベトナム語 | ベトナム語オーディオデータセット | 600 | 400 | 1000 | 北部(例、ハノイ)、中部、南部(例、ホーチミン市)。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
ヒンディー語 | ヒンディー語オーディオデータセット | 800 | 2000 | 2800 | インドのヒンディー語、特に北、東、西の地域 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
ヒングリッシュ | インド英語オーディオデータセット | 300 | 500 | 800 | 成長する経済的機会のために国の金融ハブである都市インドの都市から収集されます。 そのような場所は、ノイダ、デリー、デラドゥン、チャンディーガル、ムンバイ、コルカタ、バンガロール、プネ、チェンナイ、ハイデラバードなどです。 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||
英語 | 英語のオーディオデータセット | 700 | 700 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | |||||
カンナダ語 | カンナダ語オーディオデータセット | 60 | 100 | 40 | 200 | インド、カルナータカ州のカンナダ語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
マラヤーラム語 | マラヤーラム語オーディオデータセット | 60 | 100 | 40 | 200 | ケララ州、ラクシャドウィープ、ポンディシェリのマラヤーラム語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
オリヤー語 | Oriyaオーディオデータセット | 60 | 100 | 40 | 200 | オリッサ州、西ベンガル州、ジャールカンド州、チャッティースガル州の一部のオリヤー語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
パンジャブ語 | パンジャブ語オーディオデータセット | 60 | 100 | 40 | 200 | インドのパンジャブ出身のパンジャブ人 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
タミル語 | タミル語オーディオデータセット | 60 | 100 | 240 | 400 | インドのタミルナードゥ州出身のタミル語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
テルグ語 | テルグ語オーディオデータセット | 100 | 950 | 950 | 2000 | インド、アーンドラプラデーシュ州のテルグ語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
ベンガル語 | ベンガル語オーディオデータセット | 60 | 100 | 40 | 200 | インド、西ベンガル出身のベンガル語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
グジャラート語 | グジャラート語オーディオデータセット | 60 | 100 | 40 | 200 | インド、グジャラートのグジャラート語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
マラーティー語 | マラーティー語オーディオデータセット | 60 | 100 | 40 | 200 | インド、マハラシュトラ州のマラーティー語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ | ||
アッサム語 | アッサム語オーディオデータセット | 60 | 100 | 40 | 200 | インド、アッサムのアッサム語 | wavファイル | .json | ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング | シャイプ | お問い合わせ お問い合わせ |
会話型AIに関する深い専門知識
会話型AI、チャットボット、仮想/デジタルアシスタントは、その背後にあるテクノロジーとデータと同じくらい賢いだけです。 Shaipでは、AIを生き生きとさせるために、実際の人々との会話を模倣する自然言語処理(NLP)用の多様なオーディオデータセットの幅広いセットを提供しています。 私たちの深い理解により、世界中の複数の言語の豊富で構造化されたデータセットを使用して、AI対応の音声モデルを最高の精度で構築およびローカライズすることができます。 お客様の要件に基づいて、多言語の音声収集、音声転写、および音声注釈サービスを提供すると同時に、目的の意図、発話、および人口統計の分布を完全にカスタマイズします。
スクリプトスピーチコレクション
自発的スピーチコレクション
音声データの文字起こし
データのラベル付けと注釈
Shaipを使用すると、会話型AIプラットフォームを正確にトレーニングできるため、次のことが可能になります。
- 複数のチャネル間でシームレスに会話、テキストメッセージ、チャットを行うことができます。
- チャット、音声トランスクリプト、トランザクションなどの形式で既存のインタラクションから学び、これらの学習に基づいて提案および会話します。
- 人間のスピーチの背後にある意図を理解し、人間の言語を理解する際のあいまいさを取り除きます。
- XNUMX対XNUMXで対話し、ユーザーを識別して過去の会話を記憶するようにトレーニングできます。
会話型AIトレーニングデータの世界的リーダー
100以上の言語のオーディオデータの時間–ソース、文字起こし、注釈付き
音声データライセンス
コールセンター、ディベート、一般会話、スピーチ、ポッドキャストなど、さまざまなドメインからの20以上のトピックの範囲をカバーする、40以上の言語と方言での55万時間以上のスピーチデータ。
音声データ収集
AI要件に合わせてカスタマイズされた、世界中の2以上の言語で、音声と音声のデータ(モノローグ、100人の会話、ヒューマンボットチャット)を収集します。
音声データの文字起こし
TAT、精度、および節約が保証された30,000人の協力者の強力な労働力による費用効果の高い音声転写または音声注釈
シャイプアドバンテージ
スケール
お客様の要件に基づいて、世界中のオーディオデータを複数の言語と方言で調達、スケーリング、配信できます。
専門性
私たちは、正確で偏りのないデータ収集、転記、およびゴールドスタンダードの注釈に関する適切な専門知識を持っています。
ネットワーク
AIトレーニングモデルとスケールアップサービスを構築するためのデータ収集タスクをすばやく割り当てることができる30,000人以上の資格のある貢献者のネットワーク。
テクノロジー
独自のツールとプロセスを備えた完全なAIベースのプラットフォームがあり、24時間年中無休でワークフロー管理を活用できます。
アジリティ
お客様の要件の変化に非常に迅速に適応し、競合他社の5〜10倍の速さで高品質の音声データを使用してAI開発を加速するのに役立ちます。
セキュリティ
私たちはデータのセキュリティとプライバシーを最重要視し、高度に規制された機密データの取り扱いも認定されています。
私たちが最善を尽くす
トレーニングデータ
ほんのわずかな時間で最高品質のラベル付きデータを取得します。 これはゴールドスタンダードであり、信頼性が高く、最高レベルのパフォーマンスを達成するためにAIおよびMLモデルをトレーニングする準備ができています。
データ収集、ラベリング、注釈
Shaipを使用すると、品質データの収集、転記、および注釈付けにおいて15年以上の実績のある専門知識を得ることができます。 グローバルな労働力により、世界中からデータを収集し、データに必要なスキルレベルと専門知識を備えたラベリングおよび注釈サービスを提供できます。
データカタログとライセンス
数百万のデータセットの膨大なインベントリを使用して、必要に応じて収集および整理できます。 その後、特定のAIおよびMLの使用要件に合わせてその品質データのライセンスを取得できます。 さらに、このデータは、自分で作成した場合の数分のXNUMXのコストで利用できます。
独自のデータセットを作成したいですか?
独自のAIソリューションのカスタムデータセットを収集する方法については、今すぐお問い合わせください。