AIアルゴリズムは、フィードするデータと同じくらい優れています。
それは大胆でも型破りな発言でもありません。 AIは、数十年前にはかなり遠いもののように見えたかもしれませんが、それ以来、人工知能と機械学習は非常に長い道のりを歩んできました。
コンピュータビジョン コンピューターがラベルや画像を理解して解釈するのに役立ちます。適切な種類の画像データセットを使用してコンピューターをトレーニングすると、さまざまな顔の特徴を検出、理解、識別したり、病気を検出したり、自律走行車を運転したり、多次元臓器スキャンを使用して人命を救ったりできるようになります。
コンピュータビジョン市場は到達すると予測されています $ 144.46億 2028年までに7.04年のわずか2020億ドルから、45.64年から2021年の間に2028%のCAGRで成長しました。
この 画像データセット 機械学習とコンピュータービジョンのタスクを提供およびトレーニングすることは、AIプロジェクトの成功に不可欠です。 質の高いデータセットを取得するのは非常に困難です。 プロジェクトの複雑さにもよりますが、コンピュータービジョンの目的で信頼性が高く関連性の高いデータセットを取得するには、数日から数週間かかる場合があります。
ここでは、すぐに使用できるオープンソース画像データセットの範囲(わかりやすいように分類されています)を提供します。
コンピュータビジョンモデルをトレーニングするための画像データセットの包括的なリスト
一般:
ImageNet
ImageNetは広く使用されているデータセットであり、1.2のカテゴリに分類された驚くべき1000万の画像が付属しています。 このデータセットは、WorldNet階層に従って編成され、トレーニングデータ、画像ラベル、検証データのXNUMXつの部分に分類されます。
キネティクス700
Kinetics 700は、650,000の異なる人間の行動クラスの700を超えるクリップを含む巨大な高品質のデータセットです。 各集団訴訟には約700本のビデオクリップがあります。 データセット内のクリップには、人間とオブジェクト、および人間と人間の相互作用があり、ビデオ内の人間の行動を認識するときに非常に役立つことが証明されています。
CIFAR-10
CIFAR 10は、60000の異なるクラスを表す32の32 x6000カラー画像を誇る最大のコンピュータービジョンデータセットのXNUMXつです。 各クラスには、コンピュータービジョンアルゴリズムと機械学習のトレーニングに使用される約XNUMX枚の画像があります。
オックスフォード-IIIT ペット画像データセット
ペット画像データセットは 37 のカテゴリで構成され、クラスごとに 200 枚の画像があります。これらの画像はスケール、ポーズ、照明が異なり、品種、頭部の ROI、ピクセルレベルのトライマップセグメンテーションの注釈が付いています。
Googleのオープン画像
9 万もの URL を持つこのデータセットは、リスト上で最大の画像データセットの 6,000 つであり、XNUMX のカテゴリにわたってラベル付けされた数百万枚の画像が含まれています。
植物の画像
この編集物には、約 1 種の植物を網羅した 11 万枚もの植物画像を収録した複数の画像データセットが含まれています。
顔認識:
野生のラベル付きの顔
Labeled Faced in the Wildは、インターネットから検出された約13,230人の5,750を超える画像を含む巨大なデータセットです。 この顔のデータセットは、制約のない顔検出の研究を容易にするように設計されています。
カシアウェブフェイス
CASIA Webフェイスは、制約のない顔認識に関する機械学習と科学的研究に役立つ、適切に設計されたデータセットです。 ほぼ494,000の実際のIDの10,000を超える画像があり、顔の識別と検証のタスクに最適です。
UMDFacesデータセット
UMDは、静止画像とビデオフレームの367,800つの部分を含む注釈付きのデータセットに直面しています。 データセットには、3.7を超える顔の注釈とXNUMX万の主題の注釈付きビデオフレームがあります。
フェイスマスク検出
このデータセットには、「マスクあり」、「マスクなし」、「マスクを正しく着用していない」の 853 つのクラスに分類された XNUMX 枚の画像と、PASCAL VOC 形式の境界ボックスが含まれています。
フェレット
FERET (顔認識技術データベース) は、14,000 枚を超える注釈付き人間の顔画像を含む包括的な画像データセットです。
手書き認識:
MNISTデータベース
MNISTは、0から9までの手書き数字のサンプルを含むデータベースであり、60,000および10,000のトレーニングおよびテスト画像があります。 1999年にリリースされたMNISTを使用すると、ディープラーニングでの画像処理システムのテストが簡単になります。
人工文字データセット
人工文字データセットは、その名前が示すように、英語の構造を大文字で6000文字で表す人工的に生成されたデータです。 XNUMX枚以上の画像が付属しています。
オブジェクト検出:
MS ココ
MSCOCOまたはCommonObjects in Contextは、オブジェクト検出およびキャプションデータセットです。
キーポイント検出、マルチオブジェクト検出、キャプション、およびセグメンテーションマスク注釈を備えた328,000を超える画像があります。 80のオブジェクトカテゴリと画像ごとにXNUMXつのキャプションが付属しています。
LSUN
大規模シーン理解の略であるLSUNには、20のオブジェクトと10のシーンカテゴリに300,000万を超えるラベル付き画像があります。 一部のカテゴリには300近くの画像があり、検証用に1000枚、テストデータ用にXNUMX枚の画像があります。
ホームオブジェクト
ホームオブジェクトデータセットには、家の周り(キッチン、リビングルーム、バスルーム)からのランダムなオブジェクトの注釈付き画像が含まれています。 このデータセットには、テスト用に設計されたいくつかの注釈付きビデオと398枚の注釈なし写真も含まれています。
オートモーティブ・ソリューション :
都市景観データセット
Cityscapeは、いくつかの引用のストリートシーンから記録されたさまざまなビデオシーケンスを探すときに使用するデータセットです。 これらの画像は、さまざまな天候や光の条件で、長期間にわたってキャプチャされました。 注釈は、30つの異なるカテゴリに分類されたXNUMXクラスの画像用です。
バークレーディープドライブ
Barkley DeepDriveは、自動運転車のトレーニング用に特別に設計されており、100万を超える注釈付きのビデオシーケンスがあります。 これは、道路や運転条件の変化による自動運転車の最も役立つトレーニングデータのXNUMXつです。
乳頭状
Mapillaryには、世界中で750億XNUMX万を超えるストリートシーンと交通標識があり、機械学習とAIアルゴリズムで視覚モデルをトレーニングするのに非常に役立ちます。 これにより、さまざまな照明や気象条件、視点に対応する自動運転車を開発できます。
医療画像処理:
Covid-19オープンリサーチデータセット
この元のデータセットには、AP / PA胸部X線に関する約6500ピクセルの多角形の肺のセグメンテーションがあります。 さらに、名前、場所、入院の詳細、結果などを含むタグが付いたCovid-517患者のX線写真の19枚の画像が利用可能です。
100,000胸部X線のNIHデータベース
NIHデータベースは、科学および研究コミュニティに役立つ100,000の胸部X線画像と関連データを含む最も広範な公的に利用可能なデータセットのXNUMXつです。 進行した肺の状態の患者の画像もあります。
デジタルパソロジーのアトラス
Atlas of Digital Pathologyは、さまざまな臓器の17,000近くの注釈付きスライドから、合計100を超えるいくつかの組織病理学的パッチ画像を提供しています。 このデータセットは、コンピュータービジョンおよびパターン認識ソフトウェアの開発に役立ちます。
シーン認識:
屋内シーン認識
屋内シーン認識は、機械学習とデータトレーニングで使用される、オブジェクトと屋内シーンの約15620枚の画像を含む高度に分類されたデータセットです。 65以上のカテゴリがあり、各カテゴリには最低100枚の画像があります。
xView
公的に利用可能な最も有名なデータセットの60つとして、xViewには、さまざまな複雑で大きなシーンからの注釈付きのオーバーヘッド画像が大量に含まれています。 約XNUMXのクラスとXNUMX万を超えるオブジェクトインスタンスがあるこのデータセットの目的は、衛星画像を使用してより優れた災害救援を提供することです。
場所
MITによって提供されたデータセットであるPlacesには、1.8の異なるシーンカテゴリからの365万を超える画像があります。 これらの各カテゴリには、検証用に約50枚の画像があり、テスト用に900枚の画像があります。 深いシーンの特徴を学習して、シーン認識または視覚認識タスクを確立することが可能です。
エンターテインメント:
IMDBWIKIデータセット
IMDB – Wikiは、年齢、性別、名前で適切にラベル付けされた顔の最も人気のある公開データベースの20つです。 また、約62万人の有名人の顔と、ウィキペディアのXNUMX万XNUMX千人の顔があります。
セレブの顔
Celeb Facesは、有名人の200,000万枚の注釈付き画像を含む大規模なデータベースです。 画像にはバックグラウンドノイズとポーズのバリエーションがあり、コンピュータビジョンタスクのテストセットのトレーニングに役立ちます。 これは、顔認識、編集、顔の部分のローカリゼーションなどでより高い精度を達成するために非常に有益です。
これで、人工知能機械に燃料を供給するためのオープンソース画像データセットの膨大なリストができました。 AIと機械学習モデルの結果は、主に、フィードしてトレーニングするデータセットの品質に依存します。 AIモデルに正確な予測をスローさせたい場合は、完全に集約、タグ付け、ラベル付けされた高品質のデータセットが必要です。 コンピュータビジョンシステムの成功を増幅するには、プロジェクトのビジョンに関連する高品質の画像データベースを使用する必要があります。 あなたがより多くのそのようなデータセットを探しているなら ここをクリック