AIデータ収集とは、機械学習モデルのトレーニング、検証、テストに使用する生データ(テキスト、音声、画像、動画、構造化レコードなど)を収集するプロセスです。これにより、モデルが現実世界の問題の代表的な例を確実に備えていることが保証されます。
目的
目的は、アルゴリズムがパターンを効果的に学習できるようにするデータセットを構築することです。信頼性の高いデータ収集により、バイアスが低減され、さまざまな環境や集団におけるモデルの精度が向上します。
重要性
- 収集されたデータの品質はモデルの結果に直接影響します。
- 収集が不十分だと、偏ったモデルや使用できないモデルが作成されることがあります。
- 多様な情報源により一般化可能性が向上し、不公平性が軽減されます。
- 倫理的および法的基準 (GDPR、HIPAA など) に従う必要があります。
仕組み
- プロジェクトの目標に基づいて必要なデータの種類を定義します。
- ソース(センサー、API、調査、録音など)を特定します。
- 適切な同意とプライバシー保護のもとでデータを収集します。
- 追跡可能性とコンテキストのためにメタデータとともにデータを保存します。
- 後で注釈を付けたり、クリーニングしたり、トレーニングしたりできるようにデータを準備します。
例(実世界)
- ImageNet: コンピューター ビジョン研究用の大規模画像データセット。
- Google ストリートビュー: 地図とビジュアル AI 用に収集されたデータ。
- Mozilla Common Voice: ASR 用の音声録音のオープン データセット。
参考文献 / さらに読む
- データセットのデータシート — Gebru 他、ACM FAccT。
- AI システムのデータ準備 — NIST。
- ISO/IEC TR 20547-5: ビッグデータ参照アーキテクチャ — ISO。