AIトレーニングデータ

データ戦争 2024: AI トレーニングの倫理的かつ実践的な課題

Gen AI モデルにビートルズのような歌詞を書かせて、それが素晴らしい出来栄えだったとしたら、それには理由がある。あるいは、モデルに好きな作家のスタイルで散文を書くように頼み、それがそのスタイルを正確に再現したとしたら、それには理由がある。

たとえば、外国にいて、スーパーマーケットの売り場で見つけた面白いスナックの名前を翻訳したいときでも、スマートフォンがラベルを検出し、テキストをシームレスに翻訳します。

AI はこうした可能性すべての支点に位置しており、その主な理由は、AI モデルが膨大な量のこうしたデータ (今回の場合、ビートルズの何百もの曲や、おそらく皆さんのお気に入りの作家の本) でトレーニングされているからです。

ジェネレーティブAIの台頭により、誰もがミュージシャン、作家、アーティスト、あるいはそのすべてになれる。ジェネレーティブAIモデルは、ユーザーの指示に応じて数秒で特注のアート作品を生み出す。 ゴッホ風 アート作品を展示したり、アル・パチーノが不在の状態で利用規約を読み上げたりすることもできます。

興味をそそられるかどうかはさておき、ここで重要なのは倫理です。このような創造的な作品が、徐々にアーティストに取って代わろうとしている AI モデルのトレーニングに使用されているのは公平でしょうか? このような知的財産の所有者から同意は得られましたか? 彼らには公平な報酬が支払われましたか?

2024年へようこそ: データ戦争の年

過去数年間、データは、企業の注目を集め、自社の Gen AI モデルをトレーニングするための磁石としてさらに注目を集めるようになりました。幼児のように、AI モデルは未熟です。教えられてからトレーニングされる必要があります。そのため、企業は、モデルを人工的にトレーニングして人間を模倣するために、数十億、あるいは数百万のデータを必要とします。

たとえば、GPT-3 は数十億(数百)のトークン(大まかに言えば単語数)でトレーニングされました。しかし、情報筋によると、最近のモデルのトレーニングには数兆のトークンが使用されたそうです。

これほど膨大な量のトレーニング データセットが必要な場合、大手テクノロジー企業はどこに向かうのでしょうか?

トレーニングデータの深刻な不足

野心と量は密接に関係しています。企業がモデルを拡大し、最適化するにつれて、さらに多くのトレーニング データが必要になります。これは、GPT の後継モデルを発表したいという要求や、単に改善された正確な結果を提供したいという要求から生じている可能性があります。

いずれにしても、豊富なトレーニングデータが必要になることは避けられません。

ここで、企業は最初の障害に直面します。簡単に言えば、インターネットは AI モデルのトレーニングには小さすぎるものになりつつあります。つまり、企業はモデルに入力してトレーニングするための既存のデータセットを使い果たしているということです。

この枯渇しつつある資源は、利害関係者や技術愛好家を不安にさせています。なぜなら、AI モデルの開発と進化が制限される可能性があるからです。AI モデルは、主にブランドが自社製品をどのように位置づけるか、そして世界の悩みの種が AI 主導のソリューションでどのように解決されるかということと密接に関係しています。

同時に、合成データ、いわゆるデジタル近親交配という形での希望もあります。簡単に言えば、合成データとは AI によって生成されたトレーニング データであり、モデルのトレーニングに再び使用されます。

有望に思える一方で、技術専門家は、このようなトレーニング データの合成により、いわゆるハプスブルク AI が生まれると考えています。このような混交データセットには事実誤認や偏見、あるいは意味不明な内容が含まれる可能性があり、AI モデルの結果に悪影響を及ぼす可能性があるため、企業にとってこれは大きな懸念事項です。

これをチャイニーズ・ウィスパーのゲームとして考えてみましょう。ただし、唯一のひねりは、伝えられる最初の単語も意味をなさない可能性があるということです。

AIトレーニングデータの調達競争

AIトレーニングデータの調達 ライセンスは、トレーニング データを入手する理想的な方法です。ライブラリとリポジトリは強力ですが、ソースが限られています。つまり、大規模モデルのボリューム要件を満たすことはできません。興味深い統計によると、2026 年までにモデルをトレーニングするための高品質データが不足する可能性があり、現実世界の他の物理リソースと同等のデータの可用性が求められています。

最大の写真リポジトリの 300 つである Shutterstock には XNUMX 億枚の画像があります。これはトレーニングを開始するには十分ですが、テスト、検証、最適化には再び大量のデータが必要になります。

ただし、他にも利用可能な情報源はあります。ここでの唯一の注意点は、それらは灰色で色分けされていることです。ここで話題にしているのは、インターネットから公開されているデータです。興味深い事実をいくつか挙げてみましょう。

  • 毎日7.5万件以上のブログ投稿が公開されています
  • Instagram、X、Snapchat、TikTokなどのソーシャルメディアプラットフォームには5.4億人以上のユーザーがいます。
  • インターネット上には 1.8 億を超える Web サイトが存在します。
  • YouTube だけでも毎日 3.7 万本以上の動画がアップロードされています。

さらに、人々は音声のみのポッドキャストを通じて、テキスト、ビデオ、写真、さらには専門知識までも公開しています。

これらは明示的に利用可能なコンテンツです。

では、AI モデルのトレーニングにそれらを使用するのは公平であるはずですよね?

これは先ほど述べたグレーゾーンです。この質問に対する明確な意見はありません。膨大な量のデータにアクセスできるテクノロジー企業が、このニーズに応えるために新しいツールやポリシーの修正を考案しているからです。

一部のツールは、YouTube 動画の音声をテキストに変換し、それをトレーニング用のトークンとして使用します。企業はプライバシー ポリシーを見直し、訴訟に直面することを事前に決めて、公開データを使用してモデルをトレーニングするまでに至っています。

対抗手段

同時に、企業は、AI モデルがループのようにモデルのトレーニングに再度使用できるテキストを生成する、いわゆる合成データも開発しています。

一方、データスクレイピングに対抗し、企業が法的な抜け穴を悪用するのを防ぐために、ウェブサイトではデータスクレイピングボットを軽減するプラグインやコードを実装しています。

究極の解決策は何でしょうか?

現実世界の問題の解決における AI の影響は、常に崇高な意図に支えられてきました。では、そのようなモデルをトレーニングするためのデータセットの調達に、​​なぜグレーモデルに頼らなければならないのでしょうか?

責任ある、倫理的で説明責任のある AI に関する会話や議論が重要性を増し、勢いを増すにつれ、あらゆる規模の企業がトレーニング データを提供するためのホワイトハット技術を備えた代替ソースに切り替える必要があります。

これはどこですか? シャイプ 得意分野です。データ ソーシングを取り巻く一般的な懸念を理解し、Shaip は常に倫理的な手法を提唱し、さまざまなソースからデータを収集してコンパイルするための洗練された最適化された方法を一貫して実践してきました。

ホワイトハットデータセットの調達方法

ハットデータセットの調達方法 当社独自のデータ収集ツールでは、データ識別と配信サイクルの中心に人間がいます。当社は、お客様が取り組むユースケースの機密性と、当社のデータセットがお客様のモデルの結果に与える影響を理解しています。たとえば、ヘルスケア データセットは、自動運転車のコンピューター ビジョンのデータセットと比較すると機密性があります。

これがまさに、当社の手法が綿密な品質チェックと、関連するデータセットを識別してコンパイルする技術を含んでいる理由です。これにより、画像、ビデオ、オーディオ、テキスト、よりニッチな要件など、複数の形式にわたる独占的な Gen AI トレーニング データセットを企業に提供できるようになりました。

私たちの理念

私たちは、データセットの収集において、同意、プライバシー、公平性といった基本理念に基づいて活動しています。また、私たちのアプローチはデータの多様性を確保し、無意識の偏見が生まれないようにしています。

AI 分野が公正な慣行を特徴とする新しい時代の幕開けに向けて準備を進める中、Shaip はそのような理念の旗手および先駆者となるつもりです。AI モデルのトレーニングに、疑いなく公正で質の高いデータセットをお探しの場合は、今すぐご連絡ください。

社会シェア