データセットを開く

MLモデルをトレーニングするためのオープンソースデータセットを見つけましょう

AI / MLモデルを使い始めるためのオープンソースデータセット

AIとMLモデルの出力は、トレーニングに使用するデータと同じくらい優れているため、データの集計とそのデータのタグ付けと識別に適用する精度が重要です。

したがって、新しいAI / MLイニシアチブを開始したい場合、高品質のデータセットがAI /を維持するための燃料であるため、高品質のトレーニングデータを見つけることがプロジェクトのより困難な側面のXNUMXつであることにすぐに気付きます。 MLエンジンが実行されています。将来のAI / MLモデルを無料で使用し、トレーニングできるオープンデータセットのリストを蓄積しました。

専門化	データ型	データセット名	産業/部門	注釈/ユースケース	説明	リンク
NLP	テキスト	Amazonのレビュー	E-コマース	感情分析	ユーザーと製品の詳細を含むプレーンテキストでの過去35年間の18万件のレビューと評価のセット。	リンク
NLP	テキスト	ウィキペディアリンクデータ			4万以上。 1.9億を含む記事。単語やフレーズ、段落で構成される単語。	リンク
NLP	テキスト	スタンドフォードセンチメントツリーバンク	エンターテインメント	感情分析	RottenTomatoesからの10,000件を超えるレビューのHTMLファイル形式のセンチメントアノテーションデータセット	リンク
NLP	テキスト	米航空会社のセンチメント	航空会社	感情分析	米国航空に関する2015年のツイートは、ポジティブ、ネガティブ、ニュートラルのトーンに分かれています	リンク
CV	画像	野生のラベル付きの顔		顔認識	顔認識トレーニング用の13,000つの異なる写真を含むXNUMXを超えるトリミングされた顔を含むデータセット。	リンク
CV	ビデオ、画像	UMDFacesデータセット		顔認識	静止画像とビデオ画像を含む、367,000を超える被写体からの8,000を超える顔を含む注釈付きデータセット。	リンク
CV	画像	イメージネット			14Mnを超えるデータセット。 WordNet階層に従って編成されたさまざまなファイル形式の画像。	リンク
CV	画像	Googleのオープン画像			9Mn。 6,000を超えるカテゴリから公開画像を分類するためのURL。	リンク
NLP	テキスト	MIMICクリティカルケアデータベース	ヘルスケア		40,000人の救命救急患者からの匿名化されたデータを含む計算生理学データセット。データセットには、人口統計、バイタルサイン、投薬などの情報が含まれています。	リンク
CV	画像	米国国立旅行観光局	観光		インバウンドおよびアウトバウンドの旅行や海外の観光情報などのトピックをカバーする、信頼できるデータベースを備えた観光業界からの幅広い写真を提供します。	リンク
NLP	テキスト	交通学科	観光		国立公園、運転手登録簿、橋と鉄道情報などを含む観光データセット。	リンク
NLP	オーディオ	Flickrオーディオキャプションコーパス			教師なし音声パターン用に設計された40枚の写真からの8,000kを超える音声キャプション	リンク
NLP	オーディオ	音声コマンドデータセット		音声認識、音声注釈	基本的な音声インターフェイスを構築するための、数千人の個人からの1秒の長い発話。	リンク
NLP	オーディオ	環境オーディオデータセット			イベントのサウンドテーブルと音響シーンテーブルを含む環境オーディオデータセット。	リンク
NLP	テキスト	COVID-19オープンリサーチデータセット	ヘルスケア	医療AI	COVID-45,000およびコロナウイルスファミリーのウイルスに関する19の学術論文で構成される研究データセット。	リンク
CV	画像	Waymoオープンデータセット	自動車		Waymoがリリースした最も多様な自動運転データセット	リンク
CV	画像	ビジュアルゲノム		画像のキャプション	100万を超える画像の詳細なキャプションを備えた視覚的な知識ベース	リンク
CV	画像	ラベルミー	公的政府。		LabelmeMatlabからアクセスできる注釈付き画像の大規模なセット	リンク
CV	画像	コイル100			複数の角度（つまり100度）から撮影された360を超えるさまざまなオブジェクト	リンク
CV	画像	スタンフォード犬のデータセット			20,500種類の犬種の画像セットに分類された120以上の画像	リンク
CV	画像	屋内シーン認識		シーン認識	シーン認識モデルを構築するための15620の屋内カテゴリからの67枚の画像で構成される特定のデータセット	リンク
CV	画像	VisualQA			回答するために視覚と言語理解の理解を必要とする265,016枚の写真に関連する自由形式の質問を含むデータセット。	リンク
NLP	テキスト	マルチドメイン感情分析データセット	E-コマース	感情分析	Amazonの商品レビューを含むデータセット	リンク
NLP	テキスト	IMDBレビュー	エンターテインメント	感情分析	感情分析のための25000本の映画レビューを含むデータセット	リンク
NLP	テキスト	センチメント140		感情分析	精度を高めるために顔文字が事前に削除された160,000件のツイートを含むデータセット	リンク
NLP	テキスト	ブロガーコーパス		キーフレーズ分析	広く使用されている英語の単語が681,288回以上出現する、blogger.comからの200件のブログ投稿を含むデータセット。	リンク
NLP	テキスト	危険		チャットボットトレーニング	インテリジェントに自動応答するように機械学習モデルをトレーニングするために使用できる200,000を超える質問を含むデータセット	リンク
NLP	テキスト	英語のSMSスパムコレクション	電気通信	スパム認識	5,574の英語のSMSで構成されるスパムメッセージデータセット	リンク
NLP	テキスト	Yelpレビュー		感情分析	Yelpが公開した5万件を超えるレビューのデータセット	リンク
NLP	テキスト	UCIのスパムベース	Enterprise	スパム認識	スパムフィルタリングに役立つスパムメールの大規模なデータセット。	リンク
CV	ビデオ、画像	バークレーDeepDriveBDD100k	自動車	自律車両	ニューヨークとサンフランシスコ地域のさまざまな時間帯の1,100を超える動画で、100,000時間の運転経験を含む自動運転AIの最大のデータセットのXNUMXつ。	リンク
CV	ビデオ	コンマアイ	自動車	自律車両	車の速度、加速度、ステアリング角度、GPS座標に関する情報で構成される7時間の高速道路運転データセット	リンク
CV	ビデオ、画像	都市景観データセット	自動車	自動運転車のセマンティックラベル	5,000の異なる都市から記録された、20,000ピクセルレベルの注釈とステレオビデオシーケンス内の50の弱く注釈が付けられたフレームのより大きなセットのデータセット	リンク
CV	画像	KULベルギー交通標識データセット	自動車	自律車両	ベルギー全土からの物理的に異なる交通標識に基づくフランダース地域からの10000以上の交通標識注釈。	リンク
CV	画像	LISA：インテリジェントで安全な自動車研究所、カリフォルニア大学サンディエゴ校データセット	自動車	自律車両	交通標識、車両検出、信号機、および軌道パターンを含む豊富なデータセット。	リンク
CV	画像	CIFAR-10		物体認識	オブジェクト認識用の50,000枚の画像と10,000枚のテスト画像（つまり、60,000クラスで32枚の32×10カラー画像）で構成されるデータセット。	リンク
CV	画像	ファッションMNIST	ファッション		60,000クラスのラベルに関連付けられた10,000×28グレースケール画像の28例と10例のテストセットで構成される画像データセット。	リンク
CV	画像	IMDB-Wikiデータセット	エンターテインメント	顔認識	性別や年齢などのラベルが付いた顔画像の大規模なデータセット。合計523,051枚の顔画像のうち、460,723枚の画像がIMDBの20,284人の有名人、およびWikipediaの62,328人の有名人から取得されています。	リンク
CV	ビデオ	キネティクス-700			アクションクラスごとに、高品質のデータセットは650,000のビデオクリップで構成され、700のヒューマンアクションクラスと少なくとも600のビデオクリップが含まれます。ここでは、各クリップは10秒ほど続きます。	リンク
CV	画像	MSココ		オブジェクト検出、セグメンテーション	データセットには328kの画像が含まれ、合計2.5 Mnのインスタンスと91のオブジェクト画像があり、大規模なオブジェクトの検出、セグメンテーション、データキャプションに関連するMLモデルをトレーニングします。	リンク
CV	画像	MPII人間ポーズデータセット			データセットには、注釈付きの体の関節を持つ25Kを超える個人を含む約40Kの写真が含まれており、人間の姿勢の推定を明確にするために使用されます。全体として、データセットは410の人間の活動をカバーし、各画像には活動ラベルが付けられています。	リンク
CV	画像	画像を開く		オブジェクトの場所の注釈	画像レベルのラベル、オブジェクト境界ボックス、オブジェクトセグメンテーションなどで注釈が付けられた約9Mnの画像を含む画像データセット。データセットも16Mnで構成されています。 600Mn画像上の1.9オブジェクトクラスの境界ボックス。	リンク
CV	ビデオ	Apollo Open Platform、Baidu Inc、中国	自動車	バウンディングボックス、LiDAR	革新的な反復の効率を加速するために自動運転に必要なデータを開発者に提供する、豊富な自動運転データセット。	リンク
CV	ビデオ、画像	アルゴ、アルゴ、アメリカ	自動車	バウンディングボックス、オプティカルフロー、行動ラベル、セマンティックラベル、レーンマーキング	幾何学的およびセマンティックメタデータ（車線の中心線、車線の方向、運転可能な領域）を含むHDマップで構成される自動運転データセット。このデータセットは、MLモデルをトレーニングし、より正確な知覚アルゴリズムを作成するために使用されます。これにより、自動運転車が安全にナビゲートできるようになります。	リンク
CV	ビデオ	Bosch North AmericaResearchによるBoschSmall Traffic Lights	自動車	バウンディングボックス	ビジョンベースの信号機検出システムを構築するための、解像度13427 * 1280の720台のカメラ画像で構成されるデータセット。データセットには、24000を超える注釈付き信号機があります。	リンク
CV	ビデオ	Brain4Cars、米国コーネル大学	自動車	行動ラベル	ドライバーの警戒に関する有用な統計を抽出するための、一連のキャビンセンサー（カメラ、触覚センサー、スマートデバイスなど）で構成されるデータセット。当社のアルゴリズムは、眠気や注意散漫なドライバーを検出し、保護を強化するために必要なアラームをブーストする場合があります。	リンク
CV	画像	CULane、中国大学による香港、北京、中国	自動車	レーンマーキング	車線検出に関するコンピュータービジョンデータセット。55時間のビデオで構成され、そのうち133,235（88880トレーニングセット、9675検証セット、および34680テストセット）フレームが抽出されました。これは、北京のさまざまなドライバーが運転するXNUMX台の異なる車両に搭載されたカメラによって収集されます。	リンク
CV	ビデオ	大学によるDAVIS チューリッヒ、ETH¨チューリッヒ、ドイツ、スイス	自動車		DAVISイベント+フレームカメラを使用するエンドツーエンドの車両運転トレーニングデータセット。ステアリング、スロットル、GPSなどの車のデータは、自動車アプリのフレームデータとイベントデータの融合を評価するために使用されます。	リンク
CV	ビデオ	DBNet、上海交通大学、Xiamen大学、中国	自動車	点群、LiDAR	運転行動に関する詳細な調査のための、位置合わせされたビデオ、ポイントクラウド、GPS、およびドライバーの行動を含む、実際の1000KMの運転データ。	リンク
CV	ビデオ	Dr（eye）ve、大学によるモデナとレッジョエミリア、モデナ、イタリア	自動車	行動ラベル	74フレーム以上で注釈が付けられた、それぞれ5分の500,000のビデオシーケンスを含むデータセット。データセットは、地理参照された場所、運転速度、コースで構成され、ドライバーの視線固定とタスク固有のマップを提供するそれらの時間的統合にもラベルを付けます。	リンク
CV	ビデオ	ETH Pedestrian（2009）、ETHチューリッヒ、チューリッヒ、スイス		バウンディングボックス	74フレーム以上で注釈が付けられた、それぞれ5分の500,000のビデオシーケンスのデータセット。データセットは、地理参照された位置、運転速度、方向を提供し、タスク固有のマップを含む、ドライバーの視線固定とその時間的統合にもラベルを付けます。	リンク
CV	ビデオ	フォード（2009）、大学によるミシガン州、ミシガン州、米国	自動車	バウンディングボックス、、 LiDAR	Velodyne 3D LIDARスキャナー、3つのプッシュブルーム前向きRieg LIDAR、技術および消費者向け慣性測定ユニット（IMU）、およびPoint GreyLadybugXNUMX全方位カメラシステムを装備した自動陸上車両によってコンパイルされたデータセット。	リンク
CV	ビデオ	HCI Challenging Stereo、Bosch Corporation Research、ヒルデスハイム、ドイツ			さまざまな気象条件、複数の動きと深さのレイヤーを含む、キャプチャされたビデオシーンからの数百万フレームのデータセット。都会や田舎などの状況	リンク
CV	ビデオ	JAAD、ヨーク大学、ウクライナ、カナダ	自動車	バウンディングボックス、行動ラベル	「JAADは自動運転の文脈で共同注意を研究するためのデータセットです。焦点は交差点での歩行者とドライバーの行動とそれらに影響を与える要因にあります。この目的のために、JAADデータセットは346の短いビデオの豊富な注釈付きコレクションを提供します北アメリカと東ヨーロッパのいくつかの場所からの5時間以上の運転映像から抽出されたクリップ（長さ10〜240秒）。すべての歩行者にオクルージョンタグ付きの境界ボックスが使用されているため、このデータセットは歩行者の検出に適しています。行動アノテーションは歩行者の行動を指定します。各ビデオには、いくつかのタグ（天気、場所など）とタイムスタンプ付きの行動ラベル（停止、歩行、見ているなど）があります。さらに、人口統計属性のリストは次のとおりです。各歩行者（年齢、性別、動きの方向など）と、各フレームに表示される交通シーン要素（停止標識、交通信号など）のリストが提供されます。」	リンク
CV	ビデオ	KAISTアーバン、KAIST、韓国		LiDAR	データ収集には、非常に複雑な都市部（大都市圏、複雑な建物、住宅地など）を対象としたLiDARデータおよびステレオ画像用の多数の位置センサーが含まれます。	リンク
CV	画像	大学によるLISA交通標識カリフォルニア州、サンディエゴ、アメリカ合衆国	自動車	バウンディングボックス	米国の交通標識を含むビデオと注釈付きフレームを含むデータセットのセット。写真のみのステージと、写真とビデオの両方を含むステージのXNUMX段階でリリースされます。	リンク
CV	画像	Mapillary Vista、Mapillary AB、Global	自動車	セマンティックラベル	ピクセル精度でインスタンス固有の人間の注釈を使用して、世界中のストリートシーンを解釈するためのストリートレベルの写真データセット。	リンク
CV	ビデオ、画像	セマンティックKITTI、ボン大学、カールスルーエ、ドイツ	自動車	バウンディングボックス、セマンティックラベル、レーンマーキング	すべてのオドメトリベンチマークシーケンスのセマンティックアノテーションを含むデータセット。データセットは、車、自転車、自転車、歩行者、自転車など、さまざまなタイプの移動および非移動トラフィックに注釈を付け、シーン内のオブジェクトを調査できるようにします。	リンク
CV	ビデオ	スタンフォードトラック、スタンフォード大学、アメリカ合衆国	自動車	物体検出/分類LiDAR、GPS、コード	自然のストリートシーンでVelodyneHDL-14,000E S64 LIDARによって観測された2のラベル付きオブジェクトトラックを含むデータセット。これは、3Dオブジェクト認識の機械学習モデルのトレーニングに使用できます。	リンク
CV	ビデオ、画像	Boxy Dataset、Bosch、米国	自動車	バウンディングボックス/車両検出	高速道路の自動運転車の物体認識戦略をトレーニングおよび分析するための2万台の注釈付き車両を含む車両検出データセット。	リンク
CV	ビデオ	TME高速道路、チェコ工科大学、北イタリア	自動車	バウンディングボックス	合計28分間の27クリップのデータセットが30,000以上の車両注釈フレームに分岐しました。注釈は、レーザースキャナーからのデータを使用して半自動で作成されました。このデータ収集には、さまざまな交通シナリオ、車線数、道路の曲率、照明が含まれ、完全な取得の条件の多くをカバーします。	リンク
CV	ビデオ	教師なしラマ、ボッシュ、アメリカ合衆国	自動車	レーンマーキング、LiDAR	Unsupervised Llamasデータセットは、Lidarベースのレーンマーカーを含む高解像度の自動運転マップを生成することによって注釈が付けられました。自動運転車はこれらのマップに対して位置合わせでき、レーンマーキングはカメラフレームに投影されます。 3D投影は、すでに観察された画像マーカーと予測された画像マーカーの間の不一致を最小限に抑えることによって最適化されます。	リンク
NLP	オーディオ	Facebook AI多言語LibriSpeech（MLS）		音声注釈/音声認識	Facebook AI Multilingual LibriSpeech（MLS）は、自動音声認識（ASR）の研究を進めるために設計された大規模なオープンソースデータセットです。 MLSは、英語、ドイツ語、オランダ語、フランス語、スペイン語、イタリア語、ポルトガル語、ポーランド語の50,000か国語で8時間以上の音声を提供します。	リンク

データセットを開く

AI / MLモデルを使い始めるためのオープンソースデータセット

AIデータサービス

専門

業種

製品

会社概要

リソース

お問い合わせ（英語）