AIトレーニングデータは、機械学習モデルにパターンを識別し、予測を生成する方法を学習させるために使用されるラベル付きデータセットです。これは、モデルが内部パラメータを調整するための基準となる「グラウンドトゥルース(真実)」を表します。
目的
目的は、アルゴリズムが統計的関係性を学習するための指針となる事例を提供することです。これにより、モデルが事例から未知のデータへと一般化できるようになります。
重要性
- トレーニング データの品質はモデルの精度に直接影響します。
- 偏ったデータや不均衡なデータは不公平または信頼できないモデルを生み出します。
- 十分に大きなデータセットは一般化を改善します。
- トレーニング データがテスト セットに漏洩すると、評価が損なわれます。
仕組み
- 予測タスクとデータセットの要件を定義します。
- 関連する生データを収集します。
- 正しい出力でデータにラベルを付けたり注釈を付けたりします。
- トレーニング セット、検証セット、テスト セットに分割します。
- トレーニング データに基づいて重みを調整するようにモデルをトレーニングします。
例(実世界)
- COCO データセット: 検出とセグメンテーションのための注釈付き画像。
- Common Crawl: LLM の事前トレーニング用の大規模な Web テキスト データセット。
- LibriSpeech: ASR トレーニング用の音声データセット。
参考文献 / さらに読む
- 機械学習のためのトレーニング データ — IBM Research。
- ISO/IEC 23053: ML を使用した AI システムのフレームワーク — ISO。
- NIST AI リスク管理フレームワーク — NIST。
- 機械学習におけるトレーニングデータとは – Shaip