人間のフィードバックによる強化学習(RLHF)は、人間の判断を学習プロセスに組み込むことで、AIモデルを人間の価値観に合わせる手法です。大規模な言語モデルの微調整によく用いられます。
目的
AIの出力をより安全で、より有用で、人間の好みに合ったものにすることが目的です。RLHFは、有害、偏った、または無関係な応答を減らすことで、会話システムを改善します。
重要性
- AI トレーニングにおける人間による監視を提供します。
- AI システムの信頼性を向上します。
- 人間による注釈付けが必要なため、労働集約的です。
- 嗜好モデリングとアライメント研究に関連します。
仕組み
- モデル出力を比較して人間からのフィードバックを収集します。
- 人間の好みに基づいて報酬モデルをトレーニングします。
- 強化学習を使用して基本モデルを微調整します。
- 調整目標に対するパフォーマンスを評価します。
- 追加のフィードバックを繰り返します。
例(実世界)
- OpenAI ChatGPT: より安全な応答のために RLHF で微調整されています。
- Anthropic の Constitutional AI: 直接的なフィードバックではなく原則に従って動作します。
- InstructGPT: RLHF を示す初期の OpenAI モデル。
参考文献 / さらに読む
- Christianoら「人間の嗜好からの深層強化学習」NeurIPS 2017。
- OpenAI InstructGPT 論文。
- NIST AI リスク管理フレームワーク。
- ヒューマンフィードバックによる強化学習 (RLHF) とは何ですか?