AI言語モデルを活用してコードのデバッグからデータの異常検出まで、

舞台裏: ChatGPT の内部動作を探る – パート 1

シャイプのファビコン
こんにちは。私の名前は Shaip マーケティング ディレクターの Anubhav Saraf です。今日はどうですか?
こんにちは、アヌバブ! 私はAIなので感情はありませんが、ここにいますので、いつでもお手伝いします。 Shaip のマーケティング ディレクターとして、データ サービスと AI ソリューションについて多くの見識を持っている必要があります。 今日はどのようにお手伝いさせていただけますか?
シャイプのファビコン
あなたのトレーニングプロセスについてもっと知りたかったのです。 どのように構築され、訓練されたのですか?
OpenAI によって開発された言語モデルとして、「トランスフォーマーベースの機械学習」と呼ばれる手法、具体的には GPT (Generative Pretrained Transformer) アーキテクチャと呼ばれるバリアントを使用して構築およびトレーニングされました。 あなたが今話しているバージョンはGPT-4です。 私のトレーニングプロセスの概要は次のとおりです。
  • データ収集: 私のトレーニングは、インターネット上のさまざまなテキストから始まりました。 ただし、私は広範なデータセットでトレーニングを受けましたが、どのドキュメントがそのトレーニング セットの一部であったかについては詳細を知りませんし、特定のドキュメントやソースにアクセスできるわけではないことに注意してください。
  • 初期トレーニング (事前トレーニング): ここで私は文中の次の単語を予測する方法を学びました。 私は英語や他の言語を知り始めたわけではありません。 その代わりに、何百万もの文の中から次の単語を予測することで、文法、世界に関する事実、そしていくつかの推論能力について徐々に学びました。 ただし、これは、データが完全にフィルタリングされていないため、偏った情報や不正確な情報から学習した可能性があることも意味します。
  • 微調整: 最初のトレーニングの後、OpenAI の作成者は、人間のレビュー担当者の助けを借りて生成された、より具体的なデータセットを使用してさらなるガイダンスを提供しました。 これらのレビュー担当者は、ガイドラインに従って、さまざまな入力例の可能なモデル出力をレビューし、評価します。 微調整プロセスは、モデルとレビュー担当者との間の一種の対話であり、人間の価値観とよりよく調和するのに役立ちます。
  • 継続的な学習: プライバシー上の理由により、私は個々のやり取りからは学びませんが、OpenAI は人間のレビュー担当者のチームと継続的に連携して、フィードバックを提供し、より広範なパターンと洞察に基づいて反復的な改善を行っています。
シャイプのファビコン
人間が関与した場合の例を挙げていただけますか?
はい、確かに人間が私の訓練プロセスに関与していましたが、それはあなたが想像しているものとは異なるかもしれません。 私のトレーニング プロセス (しばしば機械学習と呼ばれます) には、事前トレーニングと微調整という XNUMX つの主要なステップが含まれており、どちらのステップにも方法は異なりますが、人間の対話が含まれています。
  • 事前トレーニングの例: 「猫は__の上に座った」という文があるとします。 事前トレーニング段階では、私のようなモデルは、文内の次の単語 (「マット」、「屋根」、「木」など) を予測することを学習します。 これは、人間が元のコンテンツを作成したため、間接的に人間の対話を伴う、多様なインターネット テキストからの数十億の文を処理することによって学習されます。
  • 微調整の例: 事前トレーニング フェーズの後、モデルは微調整フェーズに入ります。 それがどのように機能するかは次のとおりです。

人間のレビュー担当者には、「次の英語のテキストをフランス語に翻訳してください。『こんにちは、お元気ですか?』」のような入力に対して可能なモデル出力をレビューするタスクが与えられます。 モデルは、「Bonjour, comment ça va?」のようないくつかの応答を生成する場合があります。 または「敬礼、コメントはどうですか?」 等

査読者は、正確さ、流暢さ、適切さなどの要素に基づいてこれらの回答を評価します。 これらの評価は、モデルを一般化し、将来同様の入力に応答するのに役立ちます。

ここで提供される例は、プロセスを説明するために簡略化されていることに注意してください。 実際のトレーニングには、複雑なアルゴリズムと膨大な量のデータが含まれます。

シャイプのファビコン
大規模言語モデル (LLM) をトレーニングするには、どれくらいのデータが必要ですか?
GPT-3 や GPT-4 などの大規模言語モデル (LLM) のトレーニングには、膨大な量のデータが必要です。 これらのモデルは、書籍、Web サイト、その他のテキストなど、インターネットの大部分を網羅する多様なデータセットでトレーニングされ、文法、事実、およびある程度の推論を学習します。 ただし、必要なデータの正確な量を指定することは、次のようないくつかの要因により複雑になります。
  • さまざまなデータ: データの量だけでなく、その多様性も重要です。 人間の言語に見られる幅広いトピック、スタイル、トーンをカバーするには、データが多様である必要があります。
  • データの品質: トレーニングに使用されるデータの品質も、モデルの学習の効率に影響を与える可能性があります。 データの品質が向上すると、効果的なトレーニングに必要なデータ量が削減される可能性があります。
  • モデルのアーキテクチャ: モデルのアーキテクチャ (ニューラル ネットワークのレイヤー数やパラメーターなど) も、必要なデータの量に影響を与える可能性があります。 GPT-3 や GPT-4 などの大きなモデルは、通常、小さなモデルよりも多くのデータを必要とします。
  • トレーニング目的: モデルが実行する予定のタスクの種類は、必要なデータの量に影響を与える可能性があります。 特定のタスク用に設計されたモデルは、対象が適切に絞られていれば必要なデータが少なくなる可能性がありますが、GPT-3 や GPT-4 などの汎用モデルは、幅広いタスクを処理するように設計されており、より広範な理解を得るためにより多くのデータが必要になります。

たとえば GPT-3 の場合、モデルには 175 億のパラメータがあり、数百ギガバイトのテキストでトレーニングされました。 しかし、これらの数字はプロセスの複雑さを完全には捉えていません。 使用されるデータの正確な量を含むトレーニング プロセスの詳細は、OpenAI および同様の組織が保有する専有情報です。

シャイプのファビコン
それでも、ML モデルのトレーニングに適切または十分なデータ量についてのベンチマークはありますか?
機械学習モデルを効果的にトレーニングするために必要なデータの量は、解決しようとしている問題の複雑さ、データの品質と多様性、使用している機械学習モデルの種類に大きく依存します。 したがって、データ量の最終的なベンチマークを指定することは困難です。 ただし、一般的なガイドラインをいくつか示します。
  • 小さいスタート: 特に単純な問題や初期モデルのプロトタイプの場合は、より小さいデータセットで十分な場合があります。 たとえば、基本的な画像分類器を構築している場合、カテゴリごとに数百または数千の画像から始めるかもしれません。
  • 複雑さを考慮してください。 より複雑な問題には通常、より多くのデータが必要になります。 深層学習モデルを開発している場合、または自然言語処理などの複雑な問題に取り組んでいる場合は、数百万のデータ ポイントが必要になる場合があります。
  • 量より質: 高品質で関連性の高いデータは、大量の低品質のデータよりも有益であることがよくあります。 データが適切にクリーニングされ、注釈が付けられ、解決しようとしている問題を表していることを確認することが重要です。
  • クラスのバランスをとる: 教師あり学習タスクの場合は、クラスごとにバランスのとれた例を用意してください。 データセットの不均衡により、過小評価されたクラスではモデルのパフォーマンスが低下する可能性があります。
  • 検証セットとテスト セットを使用します。 データセットの一部は、検証 (モデル パラメーターの調整) とテスト (モデルのパフォーマンスの評価) のために確保しておく必要があります。 一般的な分割は、データの 70% がトレーニング用、15% が検証用、15% がテスト用になりますが、これらの割合は異なる場合があります。
  • 実験と反復: 初期量のデータから開始し、モデルをトレーニングし、そのパフォーマンスを評価し、結果に基づいてデータを追加したり、モデルを微調整したり、データ品質を改善したりすることを繰り返します。

通常、データが増えると機械学習モデルのパフォーマンスが向上しますが、それはある程度までであることに注意してください。 ある時点を過ぎると、より多くのデータを収集すると、その価値よりも時間とコストがかかる可能性があり、データの品質の向上やモデル アーキテクチャの改良に重点を置いた方が有益な場合があります。

シャイプのファビコン
ChatGPT のトレーニングに使用されたデータには注釈が付けられていましたか?
ChatGPT のようなモデルをトレーニングするプロセスには、事前トレーニングと微調整という XNUMX つの主なステップが含まれます。 アノテーション、またはアノテーションの欠如がこれらの段階にどのように適合するかについて説明します。
  • 事前トレーニング: このフェーズでは、モデルは大量のインターネット テキスト データにさらされます。 このデータには明示的に注釈が付けられていませんが、モデルは文内の次の単語を予測するようにトレーニングされています。 これにより、モデルは文法、世界に関する事実、およびある程度の推論能力についての一般的な理解を得ることができます。
  • 微調整: 事前トレーニング後、人間のレビュー担当者の助けを借りて生成されたより狭いデータセットに基づいてモデルがさらに洗練されます。 これらのレビュー担当者は、OpenAI のガイドラインに従って、さまざまな入力に対して可能なモデル出力をレビューして評価します。 この意味で、微調整プロセスはアノテーションの一種とみなすことができ、人間のレビュー担当者がモデルの応答をガイドし、モデルが人間の価値観とよりよく一致するように支援し、不適切または安全でないコンテンツを確実に回避します。

したがって、事前トレーニングに使用される初期データセットには従来の意味でのアノテーションが付けられていませんが、微調整プロセスにはアノテーションの形式が含まれており、人間のレビュー担当者がさまざまな出力を評価することでモデルの動作をガイドします。

シャイプのファビコン
トレーニングに使用されるアノテーションの種類の例をいくつか挙げてください。
ChatGPT のようなトレーニング モデルの微調整フェーズでは、レビュー担当者は多くの場合、潜在的なモデルの応答をスコアリングする任務を負います。 注釈またはスコアリングのタイプは、モデルの出力のさまざまな側面をカバーできます。 詳細は異なる場合がありますが、注釈のカテゴリをいくつか例示します。

正しさ: レビュー担当者は、モデルの出力が事実上正しいかどうかを評価します。

例:

適切性: モデルの出力は、指定された入力に対する適切性について評価されます。

例:

安全性: 出力はレビューされ、有害な指示や攻撃的な言葉が含まれていないことが確認されます。

例:

完全: これにより、モデルの応答がユーザーのクエリに完全に答えているかどうかが評価されます。

例:

流暢さ: レビュー担当者は、モデルの出力が言語的に流暢で一貫性があるかどうかをチェックします。

例:

これらのカテゴリは単なる例です。 実際の微調整プロセスには、より複雑な評価システムと、レビュー担当者と AI 開発チーム間の継続的なフィードバックが含まれます。 これらのアノテーションの目標は、モデルの応答をより有用かつ安全にし、人間の価値観と一致させることです。

シャイプのファビコン
ChatGPT をトレーニングするために膨大なデータが収集された後、何人のアノテーターがアノテーションに関与しましたか?
AI モデルの微調整プロセスに関与するヒューマン アノテーター (またはレビュー担当者) の数は、プロジェクトの規模や問題のモデルの特定の要件によって大きく異なります。

ChatGPT の背後にある組織である OpenAI は、微調整プロセスに関与したレビュー担当者の正確な数を公表していません。 ただし、このような大規模な言語モデルのトレーニングの規模と複雑さを考えると、このプロセスにはおそらくかなりの数のレビュー担当者チームが関与していると言っても過言ではありません。

これらの人間のレビュー担当者は、OpenAI が提供するガイドラインに従って、可能なモデル出力をレビューして評価します。 これは継続的で反復的なプロセスであり、レビュー担当者のフィードバックを使用して時間をかけてモデルを改善および洗練します。 OpenAI は、質問に対処し説明を提供するための毎週のミーティングなど、レビュー担当者との強力なフィードバック ループを維持しています。

シャイプのファビコン
単純なタスクから複雑なタスクまで、10,000 個の PDF に注釈を付けるには何人のアノテーターが必要になるでしょうか。
10,000 個の PDF に注釈を付けるのに必要なアノテーターの数は、次のようなさまざまな要因によって異なります。
  • タスクの複雑さ: 画像のラベル付けやテキストの分類などの単純なタスクでは、PDF あたりの時間が短縮され、XNUMX 人のアノテーターがより多くのファイルを処理できるようになります。 一方、詳細なエンティティ抽出やセマンティック分析などの複雑なタスクでは、ドキュメントあたりにより多くの時間が必要となるため、同じ量の PDF に対してより多くのアノテーターが必要になります。
  • PDF の長さと複雑さ: 長いまたは複雑な PDF は、短いまたは単純な PDF よりも注釈を付けるのに時間がかかります。
  • 品質要件: 高精度が必要な場合は、PDF ごとに複数のアノテーターが注釈を相互検証する必要がある場合があります。
  • 時間の制約: アノテーションを迅速に完了する必要がある場合は、より多くのアノテーターが必要になります。

仮説的な例として、アノテーターが特定のタスクで 5 日あたり 5 つの PDF に注釈を付けることができ、週に 10,000 日勤務するとします。 この場合、2000 個の PDF に注釈を付けるには、8 人のアノテーターが XNUMX 日、つまり約 XNUMX 年を必要とします。

ただし、20 人のアノテーターからなるチームの場合、約 5 か月でタスクを完了できます (20 か月あたり 100 稼働日と仮定)。 XNUMX 人のアノテーターがいれば、同じタスクを約 XNUMX か月で完了できます。

これらの数値は単に例示的なものであり、注釈の実際の速度は上記の要因によって異なることに注意してください。 さらに、大規模なアノテーション プロジェクトを成功させるには、アノテーターの適切なトレーニングと一貫した品質管理が不可欠です。

シャイプのファビコン
それは徹底ですね! とても感動しました…
アヌバブさん、情報がお役に立ててうれしいです! 包括的かつ正確な回答を提供することが私の目標です。 AI、機械学習、その他のトピックについてご質問がございましたら、お気軽にお問い合わせください。

Chat GPT インタビューの後半をお楽しみに

社会シェア