データセットを開く
MLモデルをトレーニングするためのオープンソースデータセットを見つけましょう
AI / MLモデルを使い始めるためのオープンソースデータセット
AIとMLモデルの出力は、トレーニングに使用するデータと同じくらい優れているため、データの集計とそのデータのタグ付けと識別に適用する精度が重要です。
したがって、新しいAI / MLイニシアチブを開始したい場合、高品質のデータセットがAI /を維持するための燃料であるため、高品質のトレーニングデータを見つけることがプロジェクトのより困難な側面のXNUMXつであることにすぐに気付きます。 MLエンジンが実行されています。 将来のAI / MLモデルを無料で使用し、トレーニングできるオープンデータセットのリストを蓄積しました。
専門化 | Data Type | データセット名 | 産業/部門 | 注釈/ユースケース | 説明 | リンク |
---|---|---|---|---|---|---|
NLP | テキスト | Amazonのレビュー | E-コマース | 感情分析 | ユーザーと製品の詳細を含むプレーンテキストでの過去35年間の18万件のレビューと評価のセット。 | リンク |
NLP | テキスト | ウィキペディアリンクデータ | 4万以上。 1.9億を含む記事。 単語やフレーズ、段落で構成される単語。 | リンク | ||
NLP | テキスト | スタンドフォードセンチメントツリーバンク | エンターテインメント | 感情分析 | RottenTomatoesからの10,000件を超えるレビューのHTMLファイル形式のセンチメントアノテーションデータセット | リンク |
NLP | テキスト | 米航空会社のセンチメント | 航空会社 | 感情分析 | 米国航空に関する2015年のツイートは、ポジティブ、ネガティブ、ニュートラルのトーンに分かれています | リンク |
CV | ビデオ、画像 | UMDFacesデータセット | 顔認識 | 静止画像とビデオ画像を含む、367,000を超える被写体からの8,000を超える顔を含む注釈付きデータセット。 | リンク | |
CV | 画像 | イメージネット | 14Mnを超えるデータセット。 WordNet階層に従って編成されたさまざまなファイル形式の画像。 | リンク | ||
CV | 画像 | Googleのオープン画像 | 9Mn。 6,000を超えるカテゴリから公開画像を分類するためのURL。 | リンク | ||
NLP | テキスト | MIMICクリティカルケアデータベース | 看護師 | 40,000人の救命救急患者からの匿名化されたデータを含む計算生理学データセット。 データセットには、人口統計、バイタルサイン、投薬などの情報が含まれています。 | リンク | |
CV | 画像 | 米国国立旅行観光局 | 観光 | インバウンドおよびアウトバウンドの旅行や海外の観光情報などのトピックをカバーする、信頼できるデータベースを備えた観光業界からの幅広い写真を提供します。 | リンク | |
NLP | テキスト | 交通学科 | 観光 | 国立公園、運転手登録簿、橋と鉄道情報などを含む観光データセット。 | リンク | |
NLP | オーディオ | Flickrオーディオキャプションコーパス | 教師なし音声パターン用に設計された40枚の写真からの8,000kを超える音声キャプション | リンク | ||
NLP | オーディオ | 音声コマンドデータセット | 音声認識、音声注釈 | 基本的な音声インターフェイスを構築するための、数千人の個人からの1秒の長い発話。 | リンク | |
NLP | オーディオ | 環境オーディオデータセット | イベントのサウンドテーブルと音響シーンテーブルを含む環境オーディオデータセット。 | リンク | ||
NLP | テキスト | COVID-19オープンリサーチデータセット | 看護師 | 医療AI | COVID-45,000およびコロナウイルスファミリーのウイルスに関する19の学術論文で構成される研究データセット。 | リンク |
CV | 画像 | Waymoオープンデータセット | 自動車 | Waymoがリリースした最も多様な自動運転データセット | リンク | |
CV | 画像 | ラベルミー | 公的政府。 | LabelmeMatlabからアクセスできる注釈付き画像の大規模なセット | リンク | |
CV | 画像 | スタンフォード犬のデータセット | 20,500種類の犬種の画像セットに分類された120以上の画像 | リンク | ||
CV | 画像 | 屋内シーン認識 | シーン認識 | シーン認識モデルを構築するための15620の屋内カテゴリからの67枚の画像で構成される特定のデータセット | リンク | |
CV | 画像 | VisualQA | 回答するために視覚と言語理解の理解を必要とする265,016枚の写真に関連する自由形式の質問を含むデータセット。 | リンク | ||
NLP | テキスト | マルチドメイン感情分析データセット | E-コマース | 感情分析 | Amazonの商品レビューを含むデータセット | リンク |
NLP | テキスト | IMDBレビュー | エンターテインメント | 感情分析 | 感情分析のための25000本の映画レビューを含むデータセット | リンク |
NLP | テキスト | ブロガーコーパス | キーフレーズ分析 | 広く使用されている英語の単語が681,288回以上出現する、blogger.comからの200件のブログ投稿を含むデータセット。 | リンク | |
NLP | テキスト | 危険 | チャットボットトレーニング | インテリジェントに自動応答するように機械学習モデルをトレーニングするために使用できる200,000を超える質問を含むデータセット | リンク | |
NLP | テキスト | 英語のSMSスパムコレクション | 電気通信 | スパム認識 | 5,574の英語のSMSで構成されるスパムメッセージデータセット | リンク |
NLP | テキスト | Yelpレビュー | 感情分析 | Yelpが公開した5万件を超えるレビューのデータセット | リンク | |
NLP | テキスト | UCIのスパムベース | Enterprise | スパム認識 | スパムフィルタリングに役立つスパムメールの大規模なデータセット。 | リンク |
CV | ビデオ、画像 | バークレーDeepDriveBDD100k | 自動車 | 自律車両 | ニューヨークとサンフランシスコ地域のさまざまな時間帯の1,100を超える動画で、100,000時間の運転経験を含む自動運転AIの最大のデータセットのXNUMXつ。 | リンク |
CV | 動画 | コンマアイ | 自動車 | 自律車両 | 車の速度、加速度、ステアリング角度、GPS座標に関する情報で構成される7時間の高速道路運転データセット | リンク |
CV | ビデオ、画像 | 都市景観データセット | 自動車 | 自動運転車のセマンティックラベル | 5,000の異なる都市から記録された、20,000ピクセルレベルの注釈とステレオビデオシーケンス内の50の弱く注釈が付けられたフレームのより大きなセットのデータセット | リンク |
CV | 画像 | KULベルギー交通標識データセット | 自動車 | 自律車両 | ベルギー全土からの物理的に異なる交通標識に基づくフランダース地域からの10000以上の交通標識注釈。 | リンク |
CV | 画像 | LISA:インテリジェントで安全な自動車研究所、カリフォルニア大学サンディエゴ校データセット | 自動車 | 自律車両 | 交通標識、車両検出、信号機、および軌道パターンを含む豊富なデータセット。 | リンク |
CV | 画像 | CIFAR-10 | 物体認識 | オブジェクト認識用の50,000枚の画像と10,000枚のテスト画像(つまり、60,000クラスで32枚の32×10カラー画像)で構成されるデータセット。 | リンク | |
CV | 画像 | ファッションMNIST | ファッション | 60,000クラスのラベルに関連付けられた10,000×28グレースケール画像の28例と10例のテストセットで構成される画像データセット。 | リンク | |
CV | 画像 | IMDB-Wikiデータセット | エンターテインメント | 顔認識 | 性別や年齢などのラベルが付いた顔画像の大規模なデータセット。 合計523,051枚の顔画像のうち、460,723枚の画像がIMDBの20,284人の有名人、およびWikipediaの62,328人の有名人から取得されています。 | リンク |
CV | 動画 | キネティクス-700 | アクションクラスごとに、高品質のデータセットは650,000のビデオクリップで構成され、700のヒューマンアクションクラスと少なくとも600のビデオクリップが含まれます。 ここでは、各クリップは10秒ほど続きます。 | リンク | ||
CV | 画像 | MSココ | オブジェクト検出、セグメンテーション | データセットには328kの画像が含まれ、合計2.5 Mnのインスタンスと91のオブジェクト画像があり、大規模なオブジェクトの検出、セグメンテーション、データキャプションに関連するMLモデルをトレーニングします。 | リンク | |
CV | 画像 | MPII人間ポーズデータセット | データセットには、注釈付きの体の関節を持つ25Kを超える個人を含む約40Kの写真が含まれており、人間の姿勢の推定を明確にするために使用されます。 全体として、データセットは410の人間の活動をカバーし、各画像には活動ラベルが付けられています。 | リンク | ||
CV | 画像 | 画像を開く | オブジェクトの場所の注釈 | 画像レベルのラベル、オブジェクト境界ボックス、オブジェクトセグメンテーションなどで注釈が付けられた約9Mnの画像を含む画像データセット。データセットも16Mnで構成されています。 600Mn画像上の1.9オブジェクトクラスの境界ボックス。 | リンク | |
CV | ビデオ、画像 | アルゴ、アルゴ、アメリカ | 自動車 | バウンディングボックス、オプティカルフロー、行動ラベル、セマンティックラベル、レーンマーキング | 幾何学的およびセマンティックメタデータ(車線の中心線、車線の方向、運転可能な領域)を含むHDマップで構成される自動運転データセット。 このデータセットは、MLモデルをトレーニングし、より正確な知覚アルゴリズムを作成するために使用されます。これにより、自動運転車が安全にナビゲートできるようになります。 | リンク |
CV | 動画 | Bosch North AmericaResearchによるBoschSmall Traffic Lights | 自動車 | バウンディングボックス | ビジョンベースの信号機検出システムを構築するための、解像度13427 * 1280の720台のカメラ画像で構成されるデータセット。 データセットには、24000を超える注釈付き信号機があります。 | リンク |
CV | 動画 | Brain4Cars、米国コーネル大学 | 自動車 | 行動ラベル | ドライバーの警戒に関する有用な統計を抽出するための、一連のキャビンセンサー(カメラ、触覚センサー、スマートデバイスなど)で構成されるデータセット。 当社のアルゴリズムは、眠気や注意散漫なドライバーを検出し、保護を強化するために必要なアラームをブーストする場合があります。 | リンク |
CV | 画像 | CULane、中国大学による香港、北京、中国 | 自動車 | レーンマーキング | 車線検出に関するコンピュータービジョンデータセット。55時間のビデオで構成され、そのうち133,235(88880トレーニングセット、9675検証セット、および34680テストセット)フレームが抽出されました。 これは、北京のさまざまなドライバーが運転するXNUMX台の異なる車両に搭載されたカメラによって収集されます。 | リンク |
CV | 動画 | 大学によるDAVIS チューリッヒ、ETH¨チューリッヒ、ドイツ、スイス | 自動車 | DAVISイベント+フレームカメラを使用するエンドツーエンドの車両運転トレーニングデータセット。 ステアリング、スロットル、GPSなどの車のデータは、自動車アプリのフレームデータとイベントデータの融合を評価するために使用されます。 | リンク | |
CV | 動画 | DBNet、上海交通大学、Xiamen大学、中国 | 自動車 | 点群、LiDAR | 運転行動に関する詳細な調査のための、位置合わせされたビデオ、ポイントクラウド、GPS、およびドライバーの行動を含む、実際の1000KMの運転データ。 | リンク |
CV | 動画 | Dr(eye)ve、大学によるモデナとレッジョエミリア、モデナ、イタリア | 自動車 | 行動ラベル | 74フレーム以上で注釈が付けられた、それぞれ5分の500,000のビデオシーケンスを含むデータセット。 データセットは、地理参照された場所、運転速度、コースで構成され、ドライバーの視線固定とタスク固有のマップを提供するそれらの時間的統合にもラベルを付けます。 | リンク |
CV | 動画 | ETH Pedestrian(2009)、ETHチューリッヒ、チューリッヒ、スイス | バウンディングボックス | 74フレーム以上で注釈が付けられた、それぞれ5分の500,000のビデオシーケンスのデータセット。 データセットは、地理参照された位置、運転速度、方向を提供し、タスク固有のマップを含む、ドライバーの視線固定とその時間的統合にもラベルを付けます。 | リンク | |
CV | 動画 | フォード(2009)、大学によるミシガン州、ミシガン州、米国 | 自動車 | バウンディングボックス、、 LiDAR | Velodyne 3D LIDARスキャナー、3つのプッシュブルーム前向きRieg LIDAR、技術および消費者向け慣性測定ユニット(IMU)、およびPoint GreyLadybugXNUMX全方位カメラシステムを装備した自動陸上車両によってコンパイルされたデータセット。 | リンク |
CV | 動画 | HCI Challenging Stereo、Bosch Corporation Research、ヒルデスハイム、ドイツ | さまざまな気象条件、複数の動きと深さのレイヤーを含む、キャプチャされたビデオシーンからの数百万フレームのデータセット。 都会や田舎などの状況 | リンク | ||
CV | 動画 | JAAD、ヨーク大学、ウクライナ、カナダ | 自動車 | バウンディングボックス、行動ラベル | 「JAADは自動運転の文脈で共同注意を研究するためのデータセットです。焦点は交差点での歩行者とドライバーの行動とそれらに影響を与える要因にあります。この目的のために、JAADデータセットは346の短いビデオの豊富な注釈付きコレクションを提供します北アメリカと東ヨーロッパのいくつかの場所からの5時間以上の運転映像から抽出されたクリップ(長さ10〜240秒)。すべての歩行者にオクルージョンタグ付きの境界ボックスが使用されているため、このデータセットは歩行者の検出に適しています。行動アノテーションは歩行者の行動を指定します。各ビデオには、いくつかのタグ(天気、場所など)とタイムスタンプ付きの行動ラベル(停止、歩行、見ているなど)があります。さらに、人口統計属性のリストは次のとおりです。各歩行者(年齢、性別、動きの方向など)と、各フレームに表示される交通シーン要素(停止標識、交通信号など)のリストが提供されます。」 | リンク |
CV | 画像 | 大学によるLISA交通標識カリフォルニア州、サンディエゴ、アメリカ合衆国 | 自動車 | バウンディングボックス | 米国の交通標識を含むビデオと注釈付きフレームを含むデータセットのセット。 写真のみのステージと、写真とビデオの両方を含むステージのXNUMX段階でリリースされます。 | リンク |
CV | 画像 | Mapillary Vista、Mapillary AB、Global | 自動車 | セマンティックラベル | ピクセル精度でインスタンス固有の人間の注釈を使用して、世界中のストリートシーンを解釈するためのストリートレベルの写真データセット。 | リンク |
CV | ビデオ、画像 | セマンティックKITTI、ボン大学、カールスルーエ、ドイツ | 自動車 | バウンディングボックス、セマンティックラベル、レーンマーキング | すべてのオドメトリベンチマークシーケンスのセマンティックアノテーションを含むデータセット。 データセットは、車、自転車、自転車、歩行者、自転車など、さまざまなタイプの移動および非移動トラフィックに注釈を付け、シーン内のオブジェクトを調査できるようにします。 | リンク |
CV | 動画 | スタンフォードトラック、スタンフォード大学、アメリカ合衆国 | 自動車 | 物体検出/分類LiDAR、GPS、コード | 自然のストリートシーンでVelodyneHDL-14,000E S64 LIDARによって観測された2のラベル付きオブジェクトトラックを含むデータセット。これは、3Dオブジェクト認識の機械学習モデルのトレーニングに使用できます。 | リンク |
CV | ビデオ、画像 | Boxy Dataset、Bosch、米国 | 自動車 | バウンディングボックス/車両検出 | 高速道路の自動運転車の物体認識戦略をトレーニングおよび分析するための2万台の注釈付き車両を含む車両検出データセット。 | リンク |
CV | 動画 | TME高速道路、チェコ工科大学、北イタリア | 自動車 | バウンディングボックス | 合計28分間の27クリップのデータセットが30,000以上の車両注釈フレームに分岐しました。 注釈は、レーザースキャナーからのデータを使用して半自動で作成されました。 このデータ収集には、さまざまな交通シナリオ、車線数、道路の曲率、照明が含まれ、完全な取得の条件の多くをカバーします。 | リンク |
CV | 動画 | 教師なしラマ、ボッシュ、アメリカ合衆国 | 自動車 | レーンマーキング、LiDAR | Unsupervised Llamasデータセットは、Lidarベースのレーンマーカーを含む高解像度の自動運転マップを生成することによって注釈が付けられました。 自動運転車はこれらのマップに対して位置合わせでき、レーンマーキングはカメラフレームに投影されます。 3D投影は、すでに観察された画像マーカーと予測された画像マーカーの間の不一致を最小限に抑えることによって最適化されます。 | リンク |
NLP | オーディオ | Facebook AI多言語LibriSpeech(MLS) | 音声注釈/音声認識 | Facebook AI Multilingual LibriSpeech(MLS)は、自動音声認識(ASR)の研究を進めるために設計された大規模なオープンソースデータセットです。 MLSは、英語、ドイツ語、オランダ語、フランス語、スペイン語、イタリア語、ポルトガル語、ポーランド語の50,000か国語で8時間以上の音声を提供します。 | リンク |