データセットを開く
MLモデルをトレーニングするためのオープンソースデータセットを見つけましょう
AI / MLモデルを使い始めるためのオープンソースデータセット
AIとMLモデルの出力は、トレーニングに使用するデータと同じくらい優れているため、データの集計とそのデータのタグ付けと識別に適用する精度が重要です。
したがって、新しいAI / MLイニシアチブを開始したい場合、高品質のデータセットがAI /を維持するための燃料であるため、高品質のトレーニングデータを見つけることがプロジェクトのより困難な側面のXNUMXつであることにすぐに気付きます。 MLエンジンが実行されています。 将来のAI / MLモデルを無料で使用し、トレーニングできるオープンデータセットのリストを蓄積しました。
| 専門化 | Data Type | データセット名 | 産業/部門 | 注釈/ユースケース | リンク |
|---|---|---|---|---|---|
| +NLP | テキスト | Amazonのレビュー | E-コマース | 感情分析 | リンク |
| 詳細説明 | ユーザーと製品の詳細を含むプレーンテキストでの過去35年間の18万件のレビューと評価のセット。 | ||||
| +NLP | テキスト | ウィキペディアリンクデータ | 全般 | リンク | |
| 詳細説明 | Wikipediaから1.9億語を含む4万以上の記事を収録。各記事には関連エンティティへのハイパーリンクが含まれています。 | ||||
| +NLP | テキスト | スタンドフォードセンチメントツリーバンク | エンターテインメント | 感情分析 | リンク |
| 詳細説明 | Rotten Tomatoesの映画レビュー10,000件以上の文章を対象とした感情アノテーションデータセット。フレーズレベルで利用可能。各文章は、Penn Treebank形式の構文木を2値化することでサブフレーズに解析されます。 | ||||
| +NLP | テキスト | 米航空会社のセンチメント | 航空会社 | 感情分析 | リンク |
| 詳細説明 | 2015 年の米国航空に関するツイートは、肯定的、中立的、否定的な感情に分かれました。 | ||||
| +CV | 画像 | イメージネット | 全般 | リンク | |
| 詳細説明 | 14万枚以上の様々なファイル形式の画像が約21,000個のシノニムにマッピングされたデータセットです。シノニムとは、画像として関連するエンティティが存在するシノニムです。1万枚の画像には境界ボックスがあり、1万枚以上の画像にはSIFT特徴量があります。 | ||||
| +CV | 画像 | Googleのオープン画像 | 全般 | リンク | |
| 詳細説明 | ImageNetに類似した600カテゴリのデータセット。開発、検証、トレーニングの各バージョンで利用可能です。一部の画像には、バウンディングボックスと視覚的な関係性も含まれています。 | ||||
| +NLP | テキスト | コーネル映画のセリフ | エンターテインメント | ダイアログ | リンク |
| 詳細説明 | 登場人物と映画のメタデータを含む、架空の会話集。各行は2人の人物による質疑応答形式の会話です。 | ||||
| 詳細説明 | 2007 年 4 月から 2007 年 10 月までの Yahoo Answers ポータルからの質問と回答を含む質問回答データセット。 | ||||
| +NLP | テキスト | マルコさん | 全般 | 質問応答 | リンク |
| 詳細説明 | Bing のウェブ検索ログから抽出した注釈付きの質問と回答のデータセット。各質問には、ユーザーから提供された回答と、その回答を含むウェブ上の文章が含まれています。 | ||||
| +NLP | テキスト | 自然な質問データセット | 全般 | 質問応答 | リンク |
| 詳細説明 | Google が公開したこのデータセットには、Wikipedia の記事に対する実際のユーザークエリと回答が含まれています。 | ||||
| +NLP | テキスト | DBペディア | 全般 | 知識グラフ | リンク |
| 詳細説明 | エンティティと関係をナレッジ グラフとして抽出した、Wikipedia の構造化されたレンダリングです。 | ||||
| +NLP | テキスト | ヤゴ | 全般 | 知識グラフ | リンク |
| 詳細説明 | Wikipedia、WordNet、GeoNames からのエンティティと関係を含むナレッジ グラフ。 | ||||
| +NLP | テキスト | フリーベース | 全般 | 知識グラフ | リンク |
| 詳細説明 | エンティティと関係性から構成されるクラウドソースのナレッジ ベース。現在は Google ナレッジ グラフに組み込まれています。 | ||||
| +NLP | テキスト | オントノーツ | 全般 | 意味的役割ラベル付け | リンク |
| 詳細説明 | CoNLL 共有タスクで使用される構文、意味、談話レベルの注釈を含むコーパス。 | ||||
| +NLP | テキスト | 2003年CoNLL | 全般 | 名前付きエンティティの認識 | リンク |
| 詳細説明 | 人、組織、場所などの名前付きエンティティが注釈付けされた英語のデータセット。 | ||||
| +CV | 画像 | COCO | 全般 | オブジェクト検出 | リンク |
| 詳細説明 | コンテキスト内の共通オブジェクト: オブジェクトの検出、セグメンテーション、キャプション作成のための豊富な注釈付きデータセット。 | ||||
| +CV | 画像 | パスカルVOC | 全般 | オブジェクト検出 | リンク |
| 詳細説明 | オブジェクトの検出とセグメンテーションの課題に対するベンチマーク データセット。 | ||||
| +CV | 画像 | 街並み | 自動運転 | セマンティックセグメンテーション | リンク |
| 詳細説明 | 30 クラスのピクセルレベルの注釈を備えた都市シーン理解用のデータセット。 | ||||
| +CV | 画像 | MNIST | 全般 | 数字の分類 | リンク |
| 詳細説明 | 28 x 28 ピクセルの 60,000 枚のトレーニング画像と 10,000 枚のテスト画像を含む手書き数字データセット。 | ||||
| +CV | 画像 | ファッション-MNIST | 小売商 | 画像分類 | リンク |
| 詳細説明 | ベンチマークの代替として使用される、MNIST と同じ形式の Zalando の記事画像のデータセット。 | ||||
| +NLP | オーディオ | Libriスピーチ | 全般 | ASR | リンク |
| 詳細説明 | オーディオブックから抽出した英語の朗読音声のコーパス。1000 時間の音声と関連テキストが含まれています。 | ||||
| +NLP | オーディオ | テッド・リウム | 全般 | ASR | リンク |
| 詳細説明 | 音声認識研究用に、TED トークの音声と文字起こしを文字起こししました。 | ||||
| +NLP | オーディオ | ティミット | 全般 | 音素認識 | リンク |
| 詳細説明 | アメリカ英語話者の音声を音声的に書き起こしたもので、音素認識タスクに広く使用されています。 | ||||
| +NLP | オーディオ | 一般的な声 | 全般 | ASR | リンク |
| 詳細説明 | 世界中のボランティアによって提供された多言語の音声朗読コーパス。 | ||||
| +NLP | オーディオ | ヴォックスセレブ | 全般 | 話者認識 | リンク |
| 詳細説明 | YouTube 動画から収集された大規模な話者識別データセット。 | ||||
| +NLP | テキスト | Wikipedia ダンプ | 全般 | 言語モデリング | リンク |
| 詳細説明 | 言語モデルの事前トレーニングに使用される、定期的に更新される Wikipedia 記事の全文ダンプ。 | ||||
| +NLP | テキスト | ギガワード | ニュース | 言語モデリング | リンク |
| 詳細説明 | 複数の通信社からのニュースワイヤーテキストデータの包括的なアーカイブ。 | ||||
| +NLP | テキスト | IMDBレビュー | エンターテインメント | 感情分析 | リンク |
| 詳細説明 | バイナリ感情分類用の大規模な映画レビューデータセット。 | ||||
| +CV | ビデオ | キネティクス-700 | 全般 | 行動認識 | リンク |
| 詳細説明 | 700 種類の人間の行動クラスを網羅した YouTube ビデオ クリップの大規模で高品質なデータセット。 | ||||
| +CV | ビデオ | UCF101 | 全般 | 行動認識 | リンク |
| 詳細説明 | 101 のアクション カテゴリを含む、リアルなアクション ビデオのデータセット。 | ||||
| +CV | ビデオ | HMDB51 | 全般 | 行動認識 | リンク |
| 詳細説明 | 51 のアクション カテゴリを持つ大規模な人間のモーション ビデオ データベース。 | ||||
| 詳細説明 | 制約のない顔認識を研究するために設計された顔写真のデータベース。 | ||||
| +CV | 画像 | CASIA-WebFace | 全般 | 顔認識 | リンク |
| 詳細説明 | 深層顔認識モデルをトレーニングするための数百万枚の顔画像を含むデータセット。 | ||||
| +NLP | テキスト | スクワッド | 全般 | 読解 | リンク |
| 詳細説明 | スタンフォード質問回答データセット: 一連の Wikipedia 記事に対してクラウドワーカーが投稿した質問。 | ||||
| 詳細説明 | CNN ニュース記事に基づいた質問と回答を含む機械理解データセット。 | ||||
| +NLP | テキスト | マルチNLI | 全般 | 自然言語推論 | リンク |
| 詳細説明 | 複数のジャンルにわたる文ペアの自然言語推論のためのデータセット。 | ||||
| +NLP | テキスト | SNLI | 全般 | 自然言語推論 | リンク |
| 詳細説明 | 含意、矛盾、または中立としてラベル付けされた文のペアを含むスタンフォード自然言語推論コーパス。 | ||||
| 詳細説明 | Wikipedia の検証済みの「良い記事」と「注目記事」のセットから抽出された 100 億を超えるトークンのコレクションです。 | ||||
| 詳細説明 | 196 種類の自動車の 16,185 枚の画像のデータセット。 | ||||
| +CV | 画像 | オックスフォードフラワーズ102 | 植物学 | 細粒度分類 | リンク |
| 詳細説明 | 英国でよく見られる 102 種類の花のカテゴリ。 | ||||
| +CV | 画像 | CIFAR-10 | 全般 | 画像分類 | リンク |
| 詳細説明 | 飛行機、自動車、鳥、猫、鹿、犬、カエル、馬、船、トラックの 10 クラスの画像。 | ||||
| +CV | 画像 | CIFAR-100 | 全般 | 画像分類 | リンク |
| 詳細説明 | CIFAR-10 に似たデータセットですが、100 個の細分化されたクラスがあります。 | ||||
| +CV | 画像 | VOC担当者レイアウト | 全般 | ポーズ推定 | リンク |
| 詳細説明 | 頭、手、足などの人物レイアウト注釈に焦点を当てた PASCAL VOC の一部。 | ||||
| +CV | 画像 | MPII ヒューマンポーズ | 全般 | ポーズ推定 | リンク |
| 詳細説明 | 体の関節に注釈が付けられた 40,000 人以上の人物を含む約 25,000 枚の画像。 | ||||
| 詳細説明 | テキスト分類研究のためのロイター通信社のニュース記事のコレクション。 | ||||
| +NLP | テキスト | 20 のニュースグループ | 全般 | テキスト分類 | リンク |
| 詳細説明 | 20 個の異なるニュースグループに分割された 20,000 件のニュースグループ ドキュメントのコレクション。 | ||||