既製のデータセットは、事前に収集され、公開または市販されているデータセットであり、AI モデルのトレーニングや評価に直接使用できます。
目的
目的は、コストのかかる収集なしにすぐに利用できるデータを提供することで、研究開発を加速することです。
重要性
- AI チームの時間とリソースを節約します。
- 再現性とベンチマークを可能にします。
- 特定のタスクに対するドメイン特異性が欠けている可能性があります。
- バイアスとライセンス制約のチェックが必要です。
仕組み
- AI タスクに関連するデータセットを識別します。
- ライセンスと使用制限を確認します。
- データセットをダウンロードまたは購入します。
- 互換性を保つために必要に応じて前処理を行ってください。
- データセットを使用してモデルをトレーニングまたは評価します。
例(実世界)
- MNIST: ベンチマーク用の手書き数字データセット。
- ImageNet: コンピューター ビジョン用の大規模データセット。
- Common Crawl: NLP 用のオープン Web テキスト データセット。