人間のフィードバックからの強化学習 (RLHF)

RLHF

人間のフィードバックによる強化学習(RLHF)は、人間の判断を学習プロセスに組み込むことで、AIモデルを人間の価値観に合わせる手法です。大規模な言語モデルの微調整によく用いられます。

目的

AIの出力をより安全で、より有用で、人間の好みに合ったものにすることが目的です。RLHFは、有害、偏った、または無関係な応答を減らすことで、会話システムを改善します。

重要性

  • AI トレーニングにおける人間による監視を提供します。
  • AI システムの信頼性を向上します。
  • 人間による注釈付けが必要なため、労働集約的です。
  • 嗜好モデリングとアライメント研究に関連します。

仕組み

  1. モデル出力を比較して人間からのフィードバックを収集します。
  2. 人間の好みに基づいて報酬モデルをトレーニングします。
  3. 強化学習を使用して基本モデルを微調整します。
  4. 調整目標に対するパフォーマンスを評価します。
  5. 追加のフィードバックを繰り返します。

例(実世界)

  • OpenAI ChatGPT: より安全な応答のために RLHF で微調整されています。
  • Anthropic の Constitutional AI: 直接的なフィードバックではなく原則に従って動作します。
  • InstructGPT: RLHF を示す初期の OpenAI モデル。

参考文献 / さらに読む

こんな商品もお勧めしています

次のAIイニシアチブをどのように支援できるか教えてください。