今すぐ入手 50％オフ* 会話型AIの既製のデータセット

チャットボット、音声アシスタント、音声対応デバイス用の音声と音声のデータセット。

*期間限定オファー

名*
姓*
メール *
電話*
会社概要*
国*
国
データ量*
無題*
コメント*
登録することで、Shaipに同意します個人情報保護方針および利用規約 ShaipからB2Bマーケティングコミュニケーションを受け取ることに同意します。
キャプチャ

業界リーダーからの信頼

キーワード	既成の言語データセット	コールセンターの会話8khz *	一般的な会話8khz *	メディアとポッドキャスト16khz *	発話/スクリプトモノローグ16khz *	時間単位の総量	対象となる方言	オーディオ形式	テキスト文字起こしフォーマット	Use Case	ソース	CTA
アフリカーンス語	アフリカーンス語オーディオデータセット		600	900		1500	アフリカで話されているアフリカーンス語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
アラビア語	アラビア語オーディオデータセット		800		1500	2300	湾岸諸国のアラビア語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
中国語	中国語のオーディオデータセット				2000	2000	中国からの中国語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
デンマーク語	デンマーク語のオーディオデータセット		400	600	2000	3000	デンマーク出身のデンマーク人	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
オランダ語	オランダ語オーディオデータセット				2000	2000	オランダからのオランダ語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-AAVEアクセント	英語-AAVE（アフリカ系アメリカ人英語）オーディオデータセット	500		500		1000	土語の多様性（AAVEとして知られることもあり、通常は労働者および中産階級のアフリカ系アメリカ人の大多数によって話されます）およびより標準的な多様性（通常は正式および公共の状況で中流階級のアフリカ系アメリカ人によって話されます）がより強調されています土語で。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-ボストン/ニューヨークアクセント	英語-ボストン/ニューヨークオーディオデータセット	225	225	350		800	これは、ボストン、ニューヨーク、フィラデルフィアの各都市とその周辺で話されているいくつかの地域のアクセントのコレクションです。これらのアクセントは、地元の人以外の人と同じように聞こえるかもしれませんが、他のアメリカのアクセントとは異なります。英語圏の他の地域とは異なるいくつかのローカル語彙にもかかわらず、これらのアクセントは他の場所で話されている英語と相互に理解できます。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-中国語のアクセント	英語-中国語のアクセント付きオーディオデータセット	150		300		450	母国語として中国語を話し、ティーンエイジャー/大人として米国に移住/移住し、第二言語として英語を学んだスピーカー。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-ディープサウスアクセント	英語-ディープサウスオーディオデータセット	275	275	450		1000	（i）テキサスからの講演者。（ii）ノースカロライナ、サウスカロライナ、ジョージア; （iii）ニューオーリンズ; （iv）フロリダパンハンドル; （v）テネシー州、アーカンソー州、ミシガン州。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-ヒスパニックアクセント	英語-ヒスパニックアクセントオーディオデータセット	400		400		800	ヒスパニック英語とは、さまざまな国の遺産を持つヒスパニック系アメリカ人が話すさまざまなアメリカ英語を指します。主な焦点は、メキシコ系アメリカ人、さまざまな出身国（メキシコ、プエルトリコ、ドミニカ共和国、エクアドル、キューバなど）のスピーカー、およびさまざまな地域（カリフォルニア、ニューヨーク、フロリダなど）からのものでした。含まれているスピーカーは、第一言語としてスペイン語を話す人と、スペイン語を話すヒスパニック系のスピーカーが継承語を持っている人でした。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-ニュージーランドアクセント	英語-ニュージーランドオーディオデータセット		250	750		1000	若いスピーカー（<40歳）と古いスピーカー（> 40歳）が同じ割合で混在している、両方の島のスピーカー。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-シンガポールアクセント	英語-シンガポールオーディオデータセット	400		600		1000	標準シンガポール英語と口語シンガポール英語の両方。異なる民族的背景（例えば、中国人、マレー人、インド人など）および異なる教育レベルのシンガポール人。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-南アフリカアクセント	英語-南アフリカオーディオデータセット	400		600		1000	さまざまな社会経済的階級および民族学的背景（たとえば、ヨーロッパ、アフリカ、インド、または混合背景の南アフリカ人）の代表者。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-アイルランドのアクセント	英語-アイルランド語オーディオデータセット		500			500	アイルランドで話されている英語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-スコットランドアクセント	英語-スコットランドのオーディオデータセット		800			800	スコットランド人が話す英語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語-ウェールズアクセント	英語-ウェールズ語オーディオデータセット		800			800	ウェールズ英語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
フランス系カナダ人	フランス系カナダ人のオーディオデータセット				1000	1000	カナダのフランス語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
ヘブライ語	ヘブライ語オーディオデータセット		750	750		1500	イスラエルのヘブライ語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
インドネシア語	インドネシア語のオーディオデータセット		1000	1000		2000	インドネシア語バハサ	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
日本語	日本語オーディオデータセット				2000	2000	日本からの日本人	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
韓国語	韓国語オーディオデータセット	100		200	1500	1800	スピーカーは韓国中に広がった。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
マレー語	マレー語オーディオデータセット		500	500		1000	マレーシアのマレー語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
メキシコスペイン語	メキシコのスペイン語オーディオデータセット				1250	1250	メキシコ出身のメキシコ人	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
ポーランド語	ポーランド語のオーディオデータセット			250	2000	2250	ポーランドからのポーランド語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
ロシア語	ロシア語のオーディオデータセット				2000	2000	ロシアからのロシア人	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
スワヒリ語	スワヒリ語オーディオデータセット	350		650		1000	南アフリカとケニアのスワヒリ語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
スウェーデン語	スウェーデン語のオーディオデータセット	350		650		1000	スウェーデンのスウェーデン語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
台湾中国語	台湾の中国のオーディオデータセット				1000	1000	台湾からの中国語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
タイ語	タイ語オーディオデータセット		350	450		800	友人間で使用される非公式の登録簿、	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
トルコ語	トルコ語オーディオデータセット				2000	2000	トルコからのトルコ語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
ベトナム語	ベトナム語オーディオデータセット		600	400		1000	北部（例、ハノイ）、中部、南部（例、ホーチミン市）。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
ヒンディー語	ヒンディー語オーディオデータセット			800	2000	2800	インドのヒンディー語、特に北、東、西の地域	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
ヒングリッシュ	インド英語オーディオデータセット	300		500		800	成長する経済的機会のために国の金融ハブである都市インドの都市から収集されます。そのような場所は、ノイダ、デリー、デラドゥン、チャンディーガル、ムンバイ、コルカタ、バンガロール、プネ、チェンナイ、ハイデラバードなどです。	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
英語	英語のオーディオデータセット			700		700		wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
カンナダ語	カンナダ語オーディオデータセット	60	100	40		200	インド、カルナータカ州のカンナダ語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
マラヤーラム語	マラヤーラム語オーディオデータセット	60	100	40		200	ケララ州、ラクシャドウィープ、ポンディシェリのマラヤーラム語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
オリヤー語	Oriyaオーディオデータセット	60	100	40		200	オリッサ州、西ベンガル州、ジャールカンド州、チャッティースガル州の一部のオリヤー語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
パンジャブ語	パンジャブ語オーディオデータセット	60	100	40		200	インドのパンジャブ出身のパンジャブ人	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
タミル語	タミル語オーディオデータセット	60	100	240		400	インドのタミルナードゥ州出身のタミル語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
テルグ語	テルグ語オーディオデータセット	100	950	950		2000	インド、アーンドラプラデーシュ州のテルグ語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
ベンガル語	ベンガル語オーディオデータセット	60	100	40		200	インド、西ベンガル出身のベンガル語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
グジャラート語	グジャラート語オーディオデータセット	60	100	40		200	インド、グジャラートのグジャラート語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
マラーティー語	マラーティー語オーディオデータセット	60	100	40		200	インド、マハラシュトラ州のマラーティー語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ
アッサム語	アッサム語オーディオデータセット	60	100	40		200	インド、アッサムのアッサム語	wavファイル	.json	ASR、仮想アシスタント、チャットボット、会話型AI、音声分析、TTS、言語モデリング	シャイプ	お問い合わせお問い合わせ

会話型AIに関する深い専門知識

会話型AI、チャットボット、仮想/デジタルアシスタントは、その背後にあるテクノロジーとデータと同じくらい賢いだけです。 Shaipでは、AIを生き生きとさせるために、実際の人々との会話を模倣する自然言語処理（NLP）用の多様なオーディオデータセットの幅広いセットを提供しています。私たちの深い理解により、世界中の複数の言語の豊富で構造化されたデータセットを使用して、AI対応の音声モデルを最高の精度で構築およびローカライズすることができます。お客様の要件に基づいて、多言語の音声収集、音声転写、および音声注釈サービスを提供すると同時に、目的の意図、発話、および人口統計の分布を完全にカスタマイズします。

スクリプトスピーチコレクション

自発的スピーチコレクション

音声データの文字起こし

データのラベル付けと注釈

Shaipを使用すると、会話型AIプラットフォームを正確にトレーニングできるため、次のことが可能になります。

複数のチャネル間でシームレスに会話、テキストメッセージ、チャットを行うことができます。
チャット、音声トランスクリプト、トランザクションなどの形式で既存のインタラクションから学び、これらの学習に基づいて提案および会話します。
人間のスピーチの背後にある意図を理解し、人間の言語を理解する際のあいまいさを取り除きます。
XNUMX対XNUMXで対話し、ユーザーを識別して過去の会話を記憶するようにトレーニングできます。

会話型AIトレーニングデータの世界的リーダー

100以上の言語のオーディオデータの時間–ソース、文字起こし、注釈付き

音声データライセンス

コールセンター、ディベート、一般会話、スピーチ、ポッドキャストなど、さまざまなドメインからの20以上のトピックの範囲をカバーする、40以上の言語と方言での55万時間以上のスピーチデータ。

音声データ収集

AI要件に合わせてカスタマイズされた、世界中の2以上の言語で、音声と音声のデータ（モノローグ、100人の会話、ヒューマンボットチャット）を収集します。

音声データの文字起こし

TAT、精度、および節約が保証された30,000人の協力者の強力な労働力による費用効果の高い音声転写または音声注釈

オーディオコレクションとオーディオアノテーションサービスを使用して、会話型AIアプリの開発を加速します

シャイプアドバンテージ

スケール

お客様の要件に基づいて、世界中のオーディオデータを複数の言語と方言で調達、スケーリング、配信できます。

専門性

私たちは、正確で偏りのないデータ収集、転記、およびゴールドスタンダードの注釈に関する適切な専門知識を持っています。

ネットワーク

AIトレーニングモデルとスケールアップサービスを構築するためのデータ収集タスクをすばやく割り当てることができる30,000人以上の資格のある貢献者のネットワーク。

テクノロジー

独自のツールとプロセスを備えた完全なAIベースのプラットフォームがあり、24時間年中無休でワークフロー管理を活用できます。

アジリティ

お客様の要件の変化に非常に迅速に適応し、競合他社の5〜10倍の速さで高品質の音声データを使用してAI開発を加速するのに役立ちます。

セキュリティ

私たちはデータのセキュリティとプライバシーを最重要視し、高度に規制された機密データの取り扱いも認定されています。

私たちが最善を尽くす

トレーニングデータ

ほんのわずかな時間で最高品質のラベル付きデータを取得します。これはゴールドスタンダードであり、信頼性が高く、最高レベルのパフォーマンスを達成するためにAIおよびMLモデルをトレーニングする準備ができています。

もっと詳しく知る

データ収集、ラベリング、注釈

Shaipを使用すると、品質データの収集、転記、および注釈付けにおいて15年以上の実績のある専門知識を得ることができます。グローバルな労働力により、世界中からデータを収集し、データに必要なスキルレベルと専門知識を備えたラベリングおよび注釈サービスを提供できます。

もっと詳しく知る

データカタログとライセンス

数百万のデータセットの膨大なインベントリを使用して、必要に応じて収集および整理できます。その後、特定のAIおよびMLの使用要件に合わせてその品質データのライセンスを取得できます。さらに、このデータは、自分で作成した場合の数分のXNUMXのコストで利用できます。

もっと詳しく知る

臨床NLPの作成は重要なタスクであり、解決するには膨大なドメインの専門知識が必要です。この分野では、あなたがGoogleより数年進んでいることがはっきりとわかります。私はあなたと一緒に働き、あなたをスケーリングしたいと思います。

グーグル株式会社取締役

過去 6 か月間にわたり、当社は自社のラベルのニーズについて Shaip と緊密に協力してきました。この間、私たちは常に高い基準と期限を守る熟練したチームに出会いました。彼らは、変化する要件に適応しながら、さまざまなラベル付けタスクを専門的に処理しました。私たちは Shaip の仕事を強くお勧めし、その結果に満足しています。

Project Manager

独自のデータセットを作成したいですか？

独自のAIソリューションのカスタムデータセットを収集する方法については、今すぐお問い合わせください。