合成データとは、現実世界のデータを模倣した人工的に生成された情報です。シミュレーション、GAN、その他の生成手法を用いて作成できます。
目的
目的は、実際のデータが不足している、機密性が低い、または収集に費用がかかる場合に、実際のデータを補強または置き換えることです。
重要性
- 個人データへの依存を減らすことでプライバシーを保護します。
- まれなケースやエッジケースのトレーニングを有効にします。
- 現実世界のデータの完全な複雑さが欠けている可能性があります。
- 安全性が重要視される AI での使用が増えています。
仕組み
- 複製するデータ特性を定義します。
- シミュレーションまたは生成モデルを使用してデータを作成します。
- 実際の分布に対して合成データを検証します。
- トレーニング パイプラインで合成データを使用します。
- 現実感のギャップを監視します。
例(実世界)
- Waymo: 自動運転トレーニングに合成運転シーンを使用します。
- NVIDIA Omniverse: ロボット用の合成 3D データを生成します。
- ヘルスケア: 研究用の合成患者データ。
参考文献 / さらに読む
- 合成データに関する NIST 特別出版物。
- Goncalves他「合成データの生成と評価」ACMコンピューティングサーベイ。
- 合成データ ボールト (MIT)。
- AIにおける合成データとは