データセットを開く

MLモデルをトレーニングするためのオープンソースデータセットを見つけましょう

データセットを開く

AI / MLモデルを使い始めるためのオープンソースデータセット

AIとMLモデルの出力は、トレーニングに使用するデータと同じくらい優れているため、データの集計とそのデータのタグ付けと識別に適用する精度が重要です。

したがって、新しいAI / MLイニシアチブを開始したい場合、高品質のデータセットがAI /を維持するための燃料であるため、高品質のトレーニングデータを見つけることがプロジェクトのより困難な側面のXNUMXつであることにすぐに気付きます。 MLエンジンが実行されています。 将来のAI / MLモデルを無料で使用し、トレーニングできるオープンデータセットのリストを蓄積しました。

専門化データ型データセット名産業/部門注釈/ユースケース製品説明リンク
NLPテキストAmazonのレビューE-コマース感情分析ユーザーと製品の詳細を含むプレーンテキストでの過去35年間の18万件のレビューと評価のセット。リンク
NLPテキストウィキペディアリンクデータ全般4万以上。 1.9億を含む記事。 単語やフレーズ、段落で構成される単語。リンク
NLPテキストスタンドフォードセンチメントツリーバンクエンターテインメント感情分析RottenTomatoesからの10,000件を超えるレビューのHTMLファイル形式のセンチメントアノテーションデータセットリンク
NLPテキスト米航空会社のセンチメント航空会社感情分析米国航空に関する2015年のツイートは、ポジティブ、ネガティブ、ニュートラルのトーンに分かれていますリンク
CV画像 野生のラベル付きの顔全般顔認識顔認識トレーニング用の13,000つの異なる写真を含むXNUMXを超えるトリミングされた顔を含むデータセット。リンク
CVビデオ、画像UMDFacesデータセット全般顔認識静止画像とビデオ画像を含む、367,000を超える被写体からの8,000を超える顔を含む注釈付きデータセット。リンク
CV画像 イメージネット全般14Mnを超えるデータセット。 WordNet階層に従って編成されたさまざまなファイル形式の画像。リンク
CV画像 Googleのオープン画像全般9Mn。 6,000を超えるカテゴリから公開画像を分類するためのURL。リンク
NLPテキストMIMICクリティカルケアデータベースヘルスケア40,000人の救命救急患者からの匿名化されたデータを含む計算生理学データセット。 データセットには、人口統計、バイタルサイン、投薬などの情報が含まれています。リンク
CV画像米国国立旅行観光局観光インバウンドおよびアウトバウンドの旅行や海外の観光情報などのトピックをカバーする、信頼できるデータベースを備えた観光業界からの幅広い写真を提供します。リンク
NLPテキスト交通学科観光国立公園、運転手登録簿、橋と鉄道情報などを含む観光データセット。リンク
NLPオーディオFlickrオーディオキャプションコーパス全般教師なし音声パターン用に設計された40枚の写真からの8,000kを超える音声キャプションリンク
NLPオーディオ音声コマンドデータセット全般音声認識、音声注釈基本的な音声インターフェイスを構築するための、数千人の個人からの1秒の長い発話。リンク
NLPオーディオ環境オーディオデータセット全般イベントのサウンドテーブルと音響シーンテーブルを含む環境オーディオデータセット。リンク
NLPテキストCOVID-19オープンリサーチデータセット ヘルスケア医療AICOVID-45,000およびコロナウイルスファミリーのウイルスに関する19の学術論文で構成される研究データセット。リンク
CV画像Waymoオープンデータセット 自動車Waymoがリリースした最も多様な自動運転データセットリンク
CV画像ビジュアルゲノム 全般画像のキャプション100万を超える画像の詳細なキャプションを備えた視覚的な知識ベースリンク
CV画像ラベルミー 公的政府。LabelmeMatlabからアクセスできる注釈付き画像の大規模なセットリンク
CV画像コイル100全般複数の角度(つまり100度)から撮影された360を超えるさまざまなオブジェクトリンク
CV画像スタンフォード犬のデータセット全般20,500種類の犬種の画像セットに分類された120以上の画像リンク
CV画像屋内シーン認識全般シーン認識シーン認識モデルを構築するための15620の屋内カテゴリからの67枚の画像で構成される特定のデータセットリンク
CV画像VisualQA全般回答するために視覚と言語理解の理解を必要とする265,016枚の写真に関連する自由形式の質問を含むデータセット。リンク
NLPテキストマルチドメイン感情分析データセットE-コマース感情分析Amazonの商品レビューを含むデータセットリンク
NLPテキストIMDBレビューエンターテインメント感情分析感情分析のための25000本の映画レビューを含むデータセットリンク
NLPテキストセンチメント140全般感情分析精度を高めるために顔文字が事前に削除された160,000件のツイートを含むデータセットリンク
NLPテキストブロガーコーパス全般キーフレーズ分析広く使用されている英語の単語が681,288回以上出現する、blogger.comからの200件のブログ投稿を含むデータセット。リンク
NLPテキスト危険全般チャットボットトレーニングインテリジェントに自動応答するように機械学習モデルをトレーニングするために使用できる200,000を超える質問を含むデータセットリンク
NLPテキスト英語のSMSスパムコレクション電気通信スパム認識5,574の英語のSMSで構成されるスパムメッセージデータセットリンク
NLPテキストYelpレビュー全般感情分析Yelpが公開した5万件を超えるレビューのデータセットリンク
NLPテキストUCIのスパムベースエンタープライズスパム認識スパムフィルタリングに役立つスパムメールの大規模なデータセット。リンク
CVビデオ、画像バークレーDeepDriveBDD100k自動車自律車両ニューヨークとサンフランシスコ地域のさまざまな時間帯の1,100を超える動画で、100,000時間の運転経験を含む自動運転AIの最大のデータセットのXNUMXつ。リンク
CVビデオコンマアイ自動車自律車両 車の速度、加速度、ステアリング角度、GPS座標に関する情報で構成される7時間の高速道路運転データセットリンク
CVビデオ、画像都市景観データセット自動車自動運転車のセマンティックラベル5,000の異なる都市から記録された、20,000ピクセルレベルの注釈とステレオビデオシーケンス内の50の弱く注釈が付けられたフレームのより大きなセットのデータセットリンク
CV画像KULベルギー交通標識データセット自動車自律車両ベルギー全土からの物理的に異なる交通標識に基づくフランダース地域からの10000以上の交通標識注釈。リンク
CV画像LISA:インテリジェントで安全な自動車研究所、カリフォルニア大学サンディエゴ校データセット自動車自律車両交通標識、車両検出、信号機、および軌道パターンを含む豊富なデータセット。リンク
CV画像CIFAR-10全般物体認識オブジェクト認識用の50,000枚の画像と10,000枚のテスト画像(つまり、60,000クラスで32枚の32×10カラー画像)で構成されるデータセット。リンク
CV画像ファッションMNISTファッション60,000クラスのラベルに関連付けられた10,000×28グレースケール画像の28例と10例のテストセットで構成される画像データセット。リンク
CV画像IMDB-Wikiデータセットエンターテインメント顔認識性別や年齢などのラベルが付いた顔画像の大規模なデータセット。 合計523,051枚の顔画像のうち、460,723枚の画像がIMDBの20,284人の有名人、およびWikipediaの62,328人の有名人から取得されています。リンク
CVビデオキネティクス-700全般アクションクラスごとに、高品質のデータセットは650,000のビデオクリップで構成され、700のヒューマンアクションクラスと少なくとも600のビデオクリップが含まれます。 ここでは、各クリップは10秒ほど続きます。リンク
CV画像MSココ全般オブジェクト検出、セグメンテーションデータセットには328kの画像が含まれ、合計2.5 Mnのインスタンスと91のオブジェクト画像があり、大規模なオブジェクトの検出、セグメンテーション、データキャプションに関連するMLモデルをトレーニングします。リンク
CV画像MPII人間ポーズデータセット全般データセットには、注釈付きの体の関節を持つ25Kを超える個人を含む約40Kの写真が含まれており、人間の姿勢の推定を明確にするために使用されます。 全体として、データセットは410の人間の活動をカバーし、各画像には活動ラベルが付けられています。リンク
CV画像画像を開く全般オブジェクトの場所の注釈画像レベルのラベル、オブジェクト境界ボックス、オブジェクトセグメンテーションなどで注釈が付けられた約9Mnの画像を含む画像データセット。データセットも16Mnで構成されています。 600Mn画像上の1.9オブジェクトクラスの境界ボックス。リンク
CVビデオApollo Open Platform、Baidu Inc、中国自動車バウンディングボックス、LiDAR革新的な反復の効率を加速するために自動運転に必要なデータを開発者に提供する、豊富な自動運転データセット。リンク
CVビデオ、画像アルゴ、アルゴ、アメリカ自動車バウンディングボックス、オプティカルフロー、行動ラベル、セマンティックラベル、レーンマーキング幾何学的およびセマンティックメタデータ(車線の中心線、車線の方向、運転可能な領域)を含むHDマップで構成される自動運転データセット。 このデータセットは、MLモデルをトレーニングし、より正確な知覚アルゴリズムを作成するために使用されます。これにより、自動運転車が安全にナビゲートできるようになります。リンク
CVビデオBosch North AmericaResearchによるBoschSmall Traffic Lights自動車バウンディングボックスビジョンベースの信号機検出システムを構築するための、解像度13427 * 1280の720台のカメラ画像で構成されるデータセット。 データセットには、24000を超える注釈付き信号機があります。リンク
CVビデオBrain4Cars、米国コーネル大学自動車行動ラベルドライバーの警戒に関する有用な統計を抽出するための、一連のキャビンセンサー(カメラ、触覚センサー、スマートデバイスなど)で構成されるデータセット。 当社のアルゴリズムは、眠気や注意散漫なドライバーを検出し、保護を強化するために必要なアラームをブーストする場合があります。リンク
CV画像CULane、中国大学による香港、北京、中国自動車レーンマーキング車線検出に関するコンピュータービジョンデータセット。55時間のビデオで構成され、そのうち133,235(88880トレーニングセット、9675検証セット、および34680テストセット)フレームが抽出されました。 これは、北京のさまざまなドライバーが運転するXNUMX台の異なる車両に搭載されたカメラによって収集されます。リンク
CVビデオ大学によるDAVIS チューリッヒ、ETH¨チューリッヒ、ドイツ、スイス自動車DAVISイベント+フレームカメラを使用するエンドツーエンドの車両運転トレーニングデータセット。 ステアリング、スロットル、GPSなどの車のデータは、自動車アプリのフレームデータとイベントデータの融合を評価するために使用されます。リンク
CVビデオDBNet、上海交通大学、Xiamen大学、中国自動車点群、LiDAR運転行動に関する詳細な調査のための、位置合わせされたビデオ、ポイントクラウド、GPS、およびドライバーの行動を含む、実際の1000KMの運転データ。リンク
CVビデオDr(eye)ve、大学によるモデナとレッジョエミリア、モデナ、イタリア自動車行動ラベル74フレーム以上で注釈が付けられた、それぞれ5分の500,000のビデオシーケンスを含むデータセット。 データセットは、地理参照された場所、運転速度、コースで構成され、ドライバーの視線固定とタスク固有のマップを提供するそれらの時間的統合にもラベルを付けます。リンク
CVビデオETH Pedestrian(2009)、ETHチューリッヒ、チューリッヒ、スイス全般バウンディングボックス74フレーム以上で注釈が付けられた、それぞれ5分の500,000のビデオシーケンスのデータセット。 データセットは、地理参照された位置、運転速度、方向を提供し、タスク固有のマップを含む、ドライバーの視線固定とその時間的統合にもラベルを付けます。リンク
CVビデオフォード(2009)、大学によるミシガン州、ミシガン州、米国自動車バウンディングボックス、、 LiDARVelodyne 3D LIDARスキャナー、3つのプッシュブルーム前向きRieg LIDAR、技術および消費者向け慣性測定ユニット(IMU)、およびPoint GreyLadybugXNUMX全方位カメラシステムを装備した自動陸上車両によってコンパイルされたデータセット。リンク
CVビデオHCI Challenging Stereo、Bosch Corporation Research、ヒルデスハイム、ドイツ全般さまざまな気象条件、複数の動きと深さのレイヤーを含む、キャプチャされたビデオシーンからの数百万フレームのデータセット。 都会や田舎などの状況リンク
CVビデオJAAD、ヨーク大学、ウクライナ、カナダ自動車バウンディングボックス、行動ラベル「JAADは自動運転の文脈で共同注意を研究するためのデータセットです。焦点は交差点での歩行者とドライバーの行動とそれらに影響を与える要因にあります。この目的のために、JAADデータセットは346の短いビデオの豊富な注釈付きコレクションを提供します北アメリカと東ヨーロッパのいくつかの場所からの5時間以上の運転映像から抽出されたクリップ(長さ10〜240秒)。すべての歩行者にオクルージョンタグ付きの境界ボックスが使用されているため、このデータセットは歩行者の検出に適しています。行動アノテーションは歩行者の行動を指定します。各ビデオには、いくつかのタグ(天気、場所など)とタイムスタンプ付きの行動ラベル(停止、歩行、見ているなど)があります。さらに、人口統計属性のリストは次のとおりです。各歩行者(年齢、性別、動きの方向など)と、各フレームに表示される交通シーン要素(停止標識、交通信号など)のリストが提供されます。」リンク
CVビデオKAISTアーバン、KAIST、韓国全般LiDARデータ収集には、非常に複雑な都市部(大都市圏、複雑な建物、住宅地など)を対象としたLiDARデータおよびステレオ画像用の多数の位置センサーが含まれます。リンク
CV画像大学によるLISA交通標識カリフォルニア州、サンディエゴ、アメリカ合衆国自動車バウンディングボックス米国の交通標識を含むビデオと注釈付きフレームを含むデータセットのセット。 写真のみのステージと、写真とビデオの両方を含むステージのXNUMX段階でリリースされます。リンク
CV画像Mapillary Vista、Mapillary AB、Global自動車セマンティックラベルピクセル精度でインスタンス固有の人間の注釈を使用して、世界中のストリートシーンを解釈するためのストリートレベルの写真データセット。リンク
CVビデオ、画像セマンティックKITTI、ボン大学、カールスルーエ、ドイツ自動車バウンディングボックス、セマンティックラベル、レーンマーキングすべてのオドメトリベンチマークシーケンスのセマンティックアノテーションを含むデータセット。 データセットは、車、自転車、自転車、歩行者、自転車など、さまざまなタイプの移動および非移動トラフィックに注釈を付け、シーン内のオブジェクトを調査できるようにします。リンク
CVビデオスタンフォードトラック、スタンフォード大学、アメリカ合衆国自動車物体検出/分類LiDAR、GPS、コード自然のストリートシーンでVelodyneHDL-14,000E S64 LIDARによって観測された2のラベル付きオブジェクトトラックを含むデータセット。これは、3Dオブジェクト認識の機械学習モデルのトレーニングに使用できます。リンク
CVビデオ、画像Boxy Dataset、Bosch、米国自動車バウンディングボックス/車両検出高速道路の自動運転車の物体認識戦略をトレーニングおよび分析するための2万台の注釈付き車両を含む車両検出データセット。リンク
CVビデオTME高速道路、チェコ工科大学、北イタリア自動車バウンディングボックス合計28分間の27クリップのデータセットが30,000以上の車両注釈フレームに分岐しました。 注釈は、レーザースキャナーからのデータを使用して半自動で作成されました。 このデータ収集には、さまざまな交通シナリオ、車線数、道路の曲率、照明が含まれ、完全な取得の条件の多くをカバーします。リンク
CVビデオ教師なしラマ、ボッシュ、アメリカ合衆国自動車レーンマーキング、LiDARUnsupervised Llamasデータセットは、Lidarベースのレーンマーカーを含む高解像度の自動運転マップを生成することによって注釈が付けられました。 自動運転車はこれらのマップに対して位置合わせでき、レーンマーキングはカメラフレームに投影されます。 3D投影は、すでに観察された画像マーカーと予測された画像マーカーの間の不一致を最小限に抑えることによって最適化されます。リンク
NLPオーディオFacebook AI多言語LibriSpeech(MLS)全般音声注釈/音声認識Facebook AI Multilingual LibriSpeech(MLS)は、自動音声認識(ASR)の研究を進めるために設計された大規模なオープンソースデータセットです。 MLSは、英語、ドイツ語、オランダ語、フランス語、スペイン語、イタリア語、ポルトガル語、ポーランド語の50,000か国語で8時間以上の音声を提供します。 リンク