事前トレーニングとは、特定のタスクを微調整する前に、大規模な汎用データセットで機械学習モデルを初期トレーニングすることです。
目的
目的は、複数のタスクに転送できる幅広い表現をモデルに提供し、下流の適応に必要なデータと計算要件を削減することです。
重要性
- 現代の LLM とビジョン モデルの基盤。
- さまざまなタスクのパフォーマンスが向上します。
- データと計算の面でコストがかかります。
- 偏りを避けるためにデータセットを慎重にキュレーションする必要があります。
仕組み
- 膨大な一般データセット(テキスト、画像)を収集します。
- 教師なし学習または自己教師学習のタスクを定義します。
- 一般的な特徴を学習するためにモデルをトレーニングします。
- 事前トレーニング済みの重みを再利用のために保存します。
- タスク固有の小さなデータセットで微調整します。
例(実世界)
- Wikipedia と BooksCorpus で事前トレーニングされた BERT。
- 画像とテキストのペアでトレーニングされた CLIP。
- 大規模なインターネット テキストで事前トレーニングされた GPT モデル。
参考文献 / さらに読む
- Devlin他「BERT:ディープ双方向トランスフォーマーの事前トレーニング」NAACL 2019。
- Radfordら「言語モデルは少数ショット学習者である」NeurIPS 2020。
- OpenAI GPT-4 技術レポート。