微調整とは、より小規模なドメイン固有のデータセットでの追加トレーニングを使用して、事前トレーニング済みの機械学習モデルを新しいタスクに適応させるプロセスです。
目的
目的は、大規模なモデルの知識を再利用し、より少ないリソースで特殊なタスクのパフォーマンスを向上させることです。
重要性
- モデルをゼロから構築する場合と比べて、トレーニングのコストと時間を削減します。
- ドメイン固有のタスクのパフォーマンスが向上します。
- トレーニング データが狭すぎると、過剰適合のリスクがあります。
- 転移学習に関連します。
仕組み
- 事前トレーニング済みの基本モデルを選択します。
- タスク固有のレイヤーを置き換えたり調整したりします。
- 新しいドメインからのラベル付きデータを使用してトレーニングします。
- 古い知識と新しい知識のバランスをとるために学習速度を調整します。
- 一般化を検証しテストします。
例(実世界)
- 感情分析用に微調整された BERT。
- 顧客サポート チャットボット向けに微調整された GPT モデル。
- 医用画像分類用に微調整された視覚モデル。
参考文献 / さらに読む
- ハワード&ルーダー. 「ユニバーサル言語モデルのファインチューニング」(ULMFiT). ACL 2018.
- ハギングフェイストランスフォーマーのドキュメント。
- パン&ヤン。 「転移学習に関する調査」 IEEE TKDE。
- 大規模言語モデルのファインチューニングとは? – Shaip