AIアルゴリズムは、フィードするデータと同じくらい優れています。
それは大胆でも型破りな発言でもありません。 AIは、数十年前にはかなり遠いもののように見えたかもしれませんが、それ以来、人工知能と機械学習は非常に長い道のりを歩んできました。
コンピュータービジョンは、コンピューターがラベルや画像を理解し、解釈するのを支援します。適切な画像データセットを用いてコンピューターを学習させることで、様々な顔の特徴を検出、理解、識別したり、病気を検出したり、自律走行車を運転したり、さらには多次元臓器スキャンを用いて人命を救ったりする能力を獲得できるようになります。
コンピュータビジョン市場は到達すると予測されています 144.46年までに2028億ドル ささやかなことから 7.04年には2020億ドル、で成長 45.64 年から 2021 年までの CAGR は 2028%。
機械学習やコンピュータービジョンのタスクに入力・学習させる画像データセットは、AIプロジェクトの成功に不可欠です。高品質なデータセットを入手するのは非常に困難です。堅牢なモデル学習を実現し、現実世界の複雑さをより適切に反映するには、多様な画像コレクションの使用が不可欠です。
プロジェクトの複雑さによっては、コンピュータービジョンに使用できる信頼性と関連性のあるデータセットを入手するには、数日から数週間かかる場合があります。様々なコンピュータービジョンタスクや実世界のシナリオをカバーするには、多様なデータセットが必要です。研究者は、包括的なモデル評価を確実に行い、幅広いアプリケーションをサポートするために、研究目的で十分なデータセットを求めることがよくあります。
ここでは、すぐに使用できるオープンソース画像データセットの範囲(わかりやすいように分類されています)を提供します。
画像データセットのタスク: 分類、セグメンテーション、検出など
画像データセット 現代のコンピュータービジョンの基盤であり、機械が視覚情報を解釈・理解するための幅広いタスクを支えています。自動運転車のモデル構築、顔認識技術の開発、医療画像解析など、どのような作業であっても、適切な画像データセットは成功に不可欠なツールです。
画像分類 は、コンピュータービジョンにおける最も基本的なタスクの一つです。このプロセスでは、モデルは画像の内容に基づいて画像全体にラベルを割り当てることを学習します。例えば、画像分類データセットは、モデルが猫と犬の画像を区別したり、異なる種類の植物を識別したりするのに役立ちます。このタスクは、写真の自動タグ付け、医療画像からの疾患診断、シーン分類ベンチマークなどのアプリケーションにとって非常に重要です。
オブジェクト検出 画像内の物体の存在を特定するだけでなく、バウンディングボックスを用いてその位置を正確に特定することで、さらに一歩進んだ技術です。バウンディングボックス付きの注釈付き画像を含むような物体検出用データセットは、自動運転車における歩行者検出、セキュリティ監視、小売分析といったアプリケーションに不可欠です。物体検出は、現実世界のシナリオに対応する堅牢なコンピュータービジョンアルゴリズムを開発する上でも重要な要素です。
セマンティックセグメンテーション 画像内の各ピクセルを特定のカテゴリに分類し、シーンの詳細な理解を可能にします。このピクセルレベルのトライマップセグメンテーションは、臓器や腫瘍の正確な描写が求められる医療画像診断や、道路、歩道、車両の区別が重要な都市環境における自動運転などのタスクにおいて特に重要です。
これらのコアタスクに加え、画像データセットはインスタンスセグメンテーション(同じクラスの個々のオブジェクトを区別する)、画像キャプション作成(画像の説明文を生成する)、顔認識(画像内の人物の顔を識別または検証する)もサポートします。これらのコンピュータービジョンタスクはいずれも、機械学習モデルのトレーニングと検証に、高品質でアノテーションが付与された画像を必要とします。
多様で適切にアノテーションされた画像データセットを活用することで、データサイエンティストや機械学習の専門家は、画像認識・分類タスクから複雑なセグメンテーションや検出問題まで、コンピュータービジョンの様々な課題に取り組むことができます。適切なデータセットは、研究開発を加速させるだけでなく、コンピュータービジョンシステムが実世界のアプリケーションにおいて正確に動作することを保証します。
コンピュータビジョンモデルをトレーニングするための画像データセットの包括的なリスト
一般:
-
ImageNet
ImageNetは広く使用されているデータセットであり、1.2のカテゴリに分類された驚くべき1000万の画像が付属しています。 このデータセットは、WorldNet階層に従って編成され、トレーニングデータ、画像ラベル、検証データのXNUMXつの部分に分類されます。
-
キネティクス700
Kinetics 700は、650,000の異なる人間の行動クラスの700を超えるクリップを含む巨大な高品質のデータセットです。 各集団訴訟には約700本のビデオクリップがあります。 データセット内のクリップには、人間とオブジェクト、および人間と人間の相互作用があり、ビデオ内の人間の行動を認識するときに非常に役立つことが証明されています。
-
CIFAR-10
CIFAR 10は、60000の異なるクラスを表す32の32 x6000カラー画像を誇る最大のコンピュータービジョンデータセットのXNUMXつです。 各クラスには、コンピュータービジョンアルゴリズムと機械学習のトレーニングに使用される約XNUMX枚の画像があります。
-
オックスフォード-IIIT ペット画像データセット
ペット画像データセットは 37 のカテゴリで構成され、クラスごとに 200 枚の画像があります。これらの画像はスケール、ポーズ、照明が異なり、品種、頭部の ROI、ピクセルレベルのトライマップセグメンテーションの注釈が付いています。
-
Googleのオープン画像
9 万もの URL を持つこのデータセットは、リスト上で最大の画像データセットの 6,000 つであり、XNUMX のカテゴリにわたってラベル付けされた数百万枚の画像が含まれています。
-
植物の画像
この編集物には、約 1 種の植物を網羅した 11 万枚もの植物画像を収録した複数の画像データセットが含まれています。
-
LSUN
LSUNは、様々なシーンや物体のカテゴリーに分類された数百万枚のラベル付き画像を含む大規模な画像データセットです。このデータセットには、モデル評価用の専用テストセットが含まれています。
顔認識:

-
野生のラベル付きの顔
Labeled Faced in the Wildは、インターネットから検出された約13,230人の5,750を超える画像を含む巨大なデータセットです。 この顔のデータセットは、制約のない顔検出の研究を容易にするように設計されています。
-
カシアウェブフェイス
CASIA Webフェイスは、制約のない顔認識に関する機械学習と科学的研究に役立つ、適切に設計されたデータセットです。 ほぼ494,000の実際のIDの10,000を超える画像があり、顔の識別と検証のタスクに最適です。
-
UMDFacesデータセット
UMDは、静止画像とビデオフレームの367,800つの部分を含む注釈付きのデータセットに直面しています。 データセットには、3.7を超える顔の注釈とXNUMX万の主題の注釈付きビデオフレームがあります。
-
フェイスマスク検出
このデータセットには、「マスクあり」、「マスクなし」、「マスクを正しく着用していない」の 853 つのクラスに分類された XNUMX 枚の画像と、PASCAL VOC 形式の境界ボックスが含まれています。
-
フェレット
FERET (顔認識技術データベース) は、14,000 枚を超える注釈付き人間の顔画像を含む包括的な画像データセットです。
手書き認識:
-
MNISTデータベース
MNISTは、0から9までの手書き数字のサンプルを含むデータベースであり、60,000および10,000のトレーニングおよびテスト画像があります。 1999年にリリースされたMNISTを使用すると、ディープラーニングでの画像処理システムのテストが簡単になります。
-
人工文字データセット
人工文字データセットは、その名前が示すように、英語の構造を大文字で6000文字で表す人工的に生成されたデータです。 XNUMX枚以上の画像が付属しています。
オブジェクト検出:
MS ココ
MSCOCOまたはCommonObjects in Contextは、オブジェクト検出およびキャプションデータセットです。
キーポイント検出、マルチオブジェクト検出、キャプション、およびセグメンテーションマスク注釈を備えた328,000を超える画像があります。 80のオブジェクトカテゴリと画像ごとにXNUMXつのキャプションが付属しています。
LSUN
大規模シーン理解の略であるLSUNには、20のオブジェクトと10のシーンカテゴリに300,000万を超えるラベル付き画像があります。 一部のカテゴリには300近くの画像があり、検証用に1000枚、テストデータ用にXNUMX枚の画像があります。
ホームオブジェクト
ホームオブジェクトデータセットには、家の周り(キッチン、リビングルーム、バスルーム)からのランダムなオブジェクトの注釈付き画像が含まれています。 このデータセットには、テスト用に設計されたいくつかの注釈付きビデオと398枚の注釈なし写真も含まれています。
ビジュアルゲノム
Visual Genomeは、108,000枚以上のキャプション付き画像を収録した包括的なビジュアル知識ベースです。オブジェクト、属性、関係性に関する詳細なアノテーションが提供されており、物体認識、画像キャプション、マルチモーダル学習タスクに役立ちます。
オートモーティブ・ソリューション :
都市景観データセット
Cityscapeは、いくつかの引用のストリートシーンから記録されたさまざまなビデオシーケンスを探すときに使用するデータセットです。 これらの画像は、さまざまな天候や光の条件で、長期間にわたってキャプチャされました。 注釈は、30つの異なるカテゴリに分類されたXNUMXクラスの画像用です。
バークレーディープドライブ
Barkley DeepDriveは、自動運転車のトレーニング用に特別に設計されており、100万を超える注釈付きのビデオシーケンスがあります。 これは、道路や運転条件の変化による自動運転車の最も役立つトレーニングデータのXNUMXつです。
乳頭状
Mapillaryには、世界中で750億XNUMX万を超えるストリートシーンと交通標識があり、機械学習とAIアルゴリズムで視覚モデルをトレーニングするのに非常に役立ちます。 これにより、さまざまな照明や気象条件、視点に対応する自動運転車を開発できます。
医療画像処理:
Covid-19オープンリサーチデータセット
この元のデータセットには、AP / PA胸部X線に関する約6500ピクセルの多角形の肺のセグメンテーションがあります。 さらに、名前、場所、入院の詳細、結果などを含むタグが付いたCovid-517患者のX線写真の19枚の画像が利用可能です。
100,000胸部X線のNIHデータベース
NIHデータベースは、科学および研究コミュニティに役立つ100,000の胸部X線画像と関連データを含む最も広範な公的に利用可能なデータセットのXNUMXつです。 進行した肺の状態の患者の画像もあります。
デジタルパソロジーのアトラス
Atlas of Digital Pathologyは、さまざまな臓器の17,000近くの注釈付きスライドから、合計100を超えるいくつかの組織病理学的パッチ画像を提供しています。 このデータセットは、コンピュータービジョンおよびパターン認識ソフトウェアの開発に役立ちます。
シーン認識:

屋内シーン認識
屋内シーン認識は、機械学習とデータトレーニングで使用される、オブジェクトと屋内シーンの約15620枚の画像を含む高度に分類されたデータセットです。 65以上のカテゴリがあり、各カテゴリには最低100枚の画像があります。
xView
公的に利用可能な最も有名なデータセットの60つとして、xViewには、さまざまな複雑で大きなシーンからの注釈付きのオーバーヘッド画像が大量に含まれています。 約XNUMXのクラスとXNUMX万を超えるオブジェクトインスタンスがあるこのデータセットの目的は、衛星画像を使用してより優れた災害救援を提供することです。
場所
MITによって提供されたデータセットであるPlacesには、1.8の異なるシーンカテゴリからの365万を超える画像があります。 これらの各カテゴリには、検証用に約50枚の画像があり、テスト用に900枚の画像があります。 深いシーンの特徴を学習して、シーン認識または視覚認識タスクを確立することが可能です。
SUNデータベース
SUNデータベースは、コンピュータービジョンで広く使用されている包括的なシーン分類ベンチマークです。屋内外の幅広い環境を網羅した数千枚の画像が収録されており、各シーンには詳細な注釈が付与されています。SUNデータベースは様々なシーンを網羅していることで知られており、シーン理解アルゴリズムを評価するための標準的なリファレンスとして利用されています。
エンターテインメント:
IMDBWIKIデータセット
IMDB – Wikiは、年齢、性別、名前で適切にラベル付けされた顔の最も人気のある公開データベースの20つです。 また、約62万人の有名人の顔と、ウィキペディアのXNUMX万XNUMX千人の顔があります。
セレブの顔
Celeb Facesは、有名人の200,000万枚の注釈付き画像を含む大規模なデータベースです。 画像にはバックグラウンドノイズとポーズのバリエーションがあり、コンピュータビジョンタスクのテストセットのトレーニングに役立ちます。 これは、顔認識、編集、顔の部分のローカリゼーションなどでより高い精度を達成するために非常に有益です。
YouTube-8Mデータセット
YouTube-8Mは、数百万件ものYouTube動画IDと、視覚的エンティティの高品質な機械生成アノテーションを含む、大規模なラベル付き動画データセットです。このデータセットは、YouTube動画IDを介して動画コンテンツとメタデータをリンクし、動画データのスケーラブルな収集とアノテーションを可能にするため、大規模な動画理解や視覚アルゴリズムのトレーニングに広く利用されています。
これで、人工知能(AI)のエンジンとなる膨大なオープンソース画像データセットのリストが手に入りました。AIおよび機械学習モデルの成果は、主に、それらに入力し学習させるデータセットの品質に左右されます。AIモデルに正確な予測をさせるには、完璧に集約、タグ付け、ラベル付けされた高品質なデータセットが必要です。これらのデータセットを活用することは、実践的な実世界プロジェクトを通して機械学習スキルを開発・強化する優れた方法です。コンピュータービジョンシステムの成功率を高めるには、プロジェクトのビジョンに適した高品質な画像データベースを使用する必要があります。