AI開発の障害を克服するための鍵
より信頼性の高いデータ
概要
人工知能は、1939年に「オズの魔法使い」のブリキの木こりが銀色のスクリーンにぶつかったときに想像力をかき立て始めました。それ以来、時代精神で確固たる足場を築きました。 ただし、アプリケーションでは、AI製品は定期的なブームとバストのサイクルを経ており、これまでで最も影響力のある採用を妨げてきました。
ブームの間、エンジニアと研究者は驚異的な進歩を遂げましたが、彼らの願望が当時利用可能なコンピューティング機能を必然的に上回ったとき、休眠期間が続きました。 幸いなことに、1965年にムーアの法則によって予言された計算能力の指数関数的な増加は、ほとんどの場合正確であることが証明されており、この増加の重要性は誇張することはできません。

eBookを読む:AI開発の障害を克服するための鍵、または eBookのPDFバージョンをダウンロードします。
AI開発の障害を克服するための鍵:より信頼性の高いデータ
今日、平均的な人は、1969年にNASAが月面着陸をやめなければならなかった数百万倍の計算能力をポケットに持っています。豊富な計算能力を便利に示す同じユビキタスデバイスは、AIの黄金時代のもう90つの前提条件も満たしています。豊富なデータ。 Information Overload Research Groupの洞察によると、世界のデータのXNUMX%は過去XNUMX年間に作成されたものです。 コンピューティングパワーの指数関数的成長がデータ生成の同様に急激な成長と最終的に収束した今、AIデータの革新は非常に爆発的であり、一部の専門家は第XNUMX次産業革命を急いで開始すると考えています。
National Venture Capital Associationのデータによると、AIセクターは6.9年の第2020四半期に過去最高のXNUMX億ドルの投資を記録しました。すでに私たちの周りで利用されているため、AIツールの可能性を理解することは難しくありません。 AI製品のより目に見えるユースケースのいくつかは、SpotifyやNetflixなどのお気に入りのアプリケーションの背後にあるレコメンデーションエンジンです。 聴く新しいアーティストや一気見する新しいテレビ番組を見つけるのは楽しいですが、これらの実装はかなり低リスクです。 他のアルゴリズムは、テストのスコアを評価し(学生が大学に受け入れられる場所を部分的に決定します)、さらに他のアルゴリズムは、候補者の履歴書をふるいにかけて、どの応募者が特定の仕事に就くかを決定します。 一部のAIツールは、乳がんをスクリーニングするAIモデル(医師よりも優れている)など、生死にかかわる影響を与えることさえあります。
AI開発の実際の例と、次世代の変革ツールの作成を争うスタートアップの数の両方が着実に増加しているにもかかわらず、効果的な開発と実装への課題は残っています。 特に、AI出力は入力が許す限り正確であるため、品質が最優先されます。
AIソリューションにおける一貫性のないデータ品質の課題
Social Media Todayによると、実際、毎日非常に多くのデータが生成されています。2.5兆バイトです。 しかし、それはすべてあなたのアルゴリズムを訓練する価値があるという意味ではありません。 一部のデータは不完全であり、一部は低品質であり、一部はまったく不正確であるため、この誤った情報のいずれかを使用すると、(高価な)AIデータイノベーションから同じ特性が得られます。 Gartnerの調査によると、85年までに作成されたAIプロジェクトの約2022%は、偏ったデータまたは不正確なデータのために不正確な結果を生成します。 自分の好みに合わないおすすめの曲を簡単にスキップすることはできますが、他の不正確なアルゴリズムには、多大な経済的および評判のコストがかかります。
2018年、Amazonは、2014年から生産されている、AIを活用した採用ツールの使用を開始しました。このツールは、女性に対して強く、紛れもない偏見を持っていました。 ツールを支えるコンピューターモデルは、XNUMX年以上にわたって会社に提出された履歴書を使用してトレーニングされたことが判明しました。 ほとんどの技術志願者は男性だったので(そしておそらくこの技術のせいで)、アルゴリズムは、たとえば女子サッカーのキャプテンや女性のビジネスグループなど、どこにでも「女性」が含まれる履歴書にペナルティを課すことに決めました。 XNUMXつの女子大学の志願者に罰則を科すことさえ決定した。 アマゾンは、このツールが潜在的な候補者を評価するための唯一の基準として使用されたことは一度もないと主張していますが、採用担当者は新入社員を探すときにレコメンデーションエンジンを検討しました。
Amazonの採用ツールは、何年にもわたる作業の結果、最終的には廃止されましたが、レッスンは長続きし、アルゴリズムとAIツールをトレーニングする際のデータ品質の重要性が浮き彫りになりました。 「高品質」のデータはどのように見えますか? つまり、次のXNUMXつのボックスをチェックします。
1.関連する
高品質と見なされるには、データは意思決定プロセスに価値のあるものをもたらす必要があります。 州チャンピオンの棒高跳び選手としての求職者のステータスと職場でのパフォーマンスには相関関係がありますか? それは可能ですが、それは非常にありそうもないようです。 関連性のないデータを取り除くことにより、アルゴリズムは実際に結果に影響を与える情報のソートに焦点を合わせることができます。
2.正確
使用しているデータは、テストしているアイデアを正確に表している必要があります。 そうでなければ、それは価値がありません。 たとえば、Amazonは10年間の応募者の履歴書を使用して採用アルゴリズムをトレーニングしましたが、会社がそれらの履歴書で提供された情報を最初に確認したかどうかは不明です。 参照チェック会社Checksterの調査によると、応募者の78%が求職に嘘をついているか、嘘をつくことを検討しています。 たとえば、アルゴリズムが候補者のGPAを使用して推奨決定を行う場合、最初にそれらの番号の信憑性を確認することをお勧めします。 このプロセスには時間とお金がかかりますが、結果の精度も間違いなく向上します。
3.適切に整理され、注釈が付けられている
履歴書に基づく採用モデルの場合、注釈は比較的簡単です。 ある意味では、履歴書には事前に注釈が付けられていますが、例外は間違いありません。 ほとんどの応募者は、「経験」の見出しの下に自分の仕事の経験をリストし、「スキル」の下に関連するスキルをリストします。 ただし、がん検診などの他の状況では、データははるかに多様になります。 情報は、他の形式のデータの中でも、医用画像、物理的スクリーニングの結果、または家族の健康歴や癌の事例についての医師と患者の間の会話の形で提供される場合があります。 この情報が正確な検出アルゴリズムに寄与するためには、AIモデルが正しい推論に基づいて正確な予測を行うことを学習できるように、注意深く整理して注釈を付ける必要があります。
4.最新
アマゾンは、人間がはるかに短い時間で行うのと同じ採用決定を再現することにより、時間とお金を節約するツールを作成しようとしていました。 推奨事項を可能な限り正確にするために、データを最新の状態に保つ必要があります。 たとえば、ある会社がタイプライターを修理する能力のある候補者を好むことを示した場合、これらの歴史的な採用は、現在の求職者のあらゆる種類の役割への適合性にはあまり関係がないでしょう。 結果として、それらを削除するのが賢明でしょう。
5.適切に多様
アマゾンのエンジニアは、圧倒的に男性である応募者のプールを使用してアルゴリズムをトレーニングすることを選択しました。 この決定は重大な誤りであり、それらが当時会社が利用できた履歴書であったという事実によって、それはそれほどひどいものではありませんでした。 アマゾンのエンジニアは、同様の評価の高い組織と提携することができたはずです 不足分を補うためにより多くの女性の求職者を受け入れた、またはそれが持つ可能性のある利用可能なポジション 男性の履歴書の数を女性の数に合わせて人為的に削減し、訓練を受け、 母集団のより正確な表現でアルゴリズムを導きました。 ポイントはそのデータです 多様性が鍵であり、入力の偏りを排除するために協調した努力がなされない限り、偏った出力は 勝ちます。
明らかに、高品質のデータはどこからともなく現れるだけではありません。 代わりに、意図した結果を念頭に置いて慎重にキュレーションする必要があります。 AIの分野では、「ガベージインはガベージアウトを意味する」とよく言われます。 この声明は真実ですが、品質の重要性をいくらか過小評価しています。 AIは、信じられないほどの量の情報を処理し、株の選択から採用の推奨、医療診断まで、あらゆるものに変えることができます。 この能力は人間の能力をはるかに上回り、それはまたそれが結果を拡大することを意味します。 偏見のある人間のリクルーターは、非常に多くの女性を見落とすことができましたが、偏見のあるAIリクルーターはすべての女性を見落とす可能性がありました。 その意味で、ガベージインは単にガベージアウトを意味するのではなく、少量の「ガベージ」データが埋め立て地全体に変わる可能性があることを意味します。
複雑なコンプライアンス要求のナビゲート
質の高いデータを見つけるのはそれほど難しいことではなかったかのように、AIデータの革新から最大の利益を得る立場にある業界の中には、最も厳しく規制されているものもあります。 ヘルスケアはおそらく最良の例であり、HITインフラストラクチャの調査によると、業界関係者の91%が、テクノロジーがケアへのアクセスを改善できると考えていますが、75%が患者のセキュリティとプライバシーに対する脅威と見なしているという事実により、楽観的な見方は和らげられています。 —そして危険にさらされているのは患者だけではありません。
医療保険の相互運用性と説明責任に関する法律によって制定された抜本的な規制は、現在、ヨーロッパの一般データ保護規則、米国のカリフォルニア消費者プライバシー法、シンガポールの個人データ保護法など、さまざまな地域のデータコンプライアンスのハードルと交差しています。 これらの地域の規制にはさらに多くの規制が加わり、遠隔医療が医療データのより重要な情報源として浮上するにつれて、規制は輸送中の患者データをさらに厳しく把握する可能性があります。 その結果、Shaipの安全で準拠したクラウドプラットフォームは、AI製品をトレーニングするために医療データを収集してアクセスするためのさらに価値のある手段であることが証明されます。
個人を特定できる情報はAI開発にとって重大な脅威となる可能性がありますが、完全に準拠した実装でさえ、多様なトレーニングデータのみで得られるような正確な結果を提供できない場合はリスクがあります。 Journal of the American Medical Associationの2020年の研究では、医療分野の機械学習アルゴリズムは、カリフォルニア、ニューヨーク、マサチューセッツの患者からのデータを使用してトレーニングされることが最も多いことが示されました。 これらの患者が米国の人口のXNUMX分のXNUMX未満であることを考えると、世界の他の地域は言うまでもなく、これらのモデルがどのように偏った結果を生み出すことができるかを想像するのは難しいです。
AI開発の障害を克服する
AI開発の取り組みには、どの業界で行われていても重大な障害が含まれ、実現可能なアイデアから製品を成功させるプロセスには困難が伴います。 適切なデータを取得するという課題と、関連するすべての規制に準拠するためにデータを匿名化する必要性との間で、アルゴリズムの実際の構築とトレーニングは簡単な部分のように感じることがあります。
画期的な新しいAI開発を設計するために必要なすべての利点を組織に与えるには、Shaipのような企業との提携を検討する必要があります。 ChetanParikhとVatsalGhiyaは、米国のヘルスケアを変革する可能性のある種類のソリューションを企業が設計するのを支援するためにShaipを設立しました。顧客は説得力のあるアイデアをAIソリューションに変えることができます。
私たちのスタッフ、プロセス、およびプラットフォームが組織で機能しているので、次のXNUMXつのメリットをすぐに解き放ち、プロジェクトを成功に導くことができます。
1.データサイエンティストを解放する能力
AI開発プロセスにかなりの時間がかかることを回避することはできませんが、チームが最も時間をかけて実行する機能をいつでも最適化できます。 データサイエンティストは高度なアルゴリズムと機械学習モデルの開発の専門家であるため採用しましたが、調査によると、これらのワーカーは実際にプロジェクトの原動力となるデータの調達、クリーニング、整理に80%の時間を費やしています。 データサイエンティストの76分の20以上(XNUMX%)が、これらのありふれたデータ収集プロセスも仕事の中で最も嫌いな部分であると報告していますが、高品質のデータが必要なため、実際の開発に費やす時間はわずかXNUMX%です。多くのデータサイエンティストにとって最も興味深く、知的に刺激的な仕事です。 Shaipなどのサードパーティベンダーを通じてデータを調達することで、企業は高価で才能のあるデータエンジニアにデータ管理者としての仕事をアウトソーシングさせ、代わりにAIソリューションの中で最大の価値を生み出すことができる部分に時間を費やすことができます。
2.より良い結果を達成する能力
オープンソースデータに依存することは、独自の落とし穴に伴うもうXNUMXつの一般的なショートカットです。 オープンソースデータを使用してトレーニングされたアルゴリズムは、ライセンスされたデータセットに基づいて構築されたアルゴリズムよりも簡単に複製されるため、差別化の欠如は最大の問題のXNUMXつです。 このルートを使用することで、価格を引き下げ、いつでも市場シェアを獲得できる可能性のある他の参加者との競争を招くことができます。 Shaipに依存すると、熟練した管理された労働力によって集められた最高品質のデータにアクセスできます。競合他社が苦労して獲得した知的財産を簡単に再作成できないようにするカスタムデータセットの独占ライセンスを付与できます。
3.経験豊富な専門家へのアクセス
ドメインの専門家がデータを識別、整理、分類、およびラベル付けすることで、アルゴリズムのトレーニングに使用される情報が可能な限り最高の結果を生み出すことができることがわかります。 また、定期的な品質保証を実施して、データが最高水準を満たし、ラボだけでなく実際の状況でも意図したとおりに機能することを確認します。
4.開発のタイムラインの加速
AIの開発は一夜にして行われるわけではありませんが、Shaipと提携すると、より早く行われる可能性があります。 社内のデータ収集と注釈は、残りの開発プロセスを妨げる重大な運用上のボトルネックを生み出します。 Shaipを使用すると、すぐに使用できるデータの膨大なライブラリにすぐにアクセスできます。また、専門家は、業界に関する深い知識とグローバルネットワークを使用して、必要なあらゆる種類の追加入力を入手できます。 調達や注釈の負担なしで、チームはすぐに実際の開発に取り掛かることができます。トレーニングモデルは、初期の不正確さを特定して、精度の目標を達成するために必要な反復を減らすのに役立ちます。
データ管理のすべての側面をアウトソーシングする準備ができていない場合、Shaipは、画像、ビデオ、テキスト、オーディオのサポートなど、チームがさまざまなタイプのデータをより効率的に生成、変更、および注釈付けするのに役立つクラウドベースのプラットフォームも提供します。 ShaipCloudには、ワークロードを追跡および監視する特許取得済みのソリューション、複雑で難しいオーディオ録音を転記する転記ツール、妥協のない品質を保証する品質管理コンポーネントなど、さまざまな直感的な検証およびワークフローツールが含まれています。 何よりも、スケーラブルであるため、プロジェクトのさまざまな要求が増えるにつれて成長する可能性があります。
AIイノベーションの時代はまだ始まったばかりであり、今後数年間で、業界全体を再形成したり、社会全体を変えたりする可能性のある、信じられないほどの進歩とイノベーションが見られます。 Shaipでは、専門知識を活用して変革の力として機能し、世界で最も革新的な企業がAIソリューションの力を活用して野心的な目標を達成できるよう支援したいと考えています。
私たちはヘルスケアアプリケーションと会話型AIに深い経験を持っていますが、ほぼすべての種類のアプリケーションのモデルをトレーニングするために必要なスキルも持っています。 Shaipがプロジェクトをアイデアから実装に移すのにどのように役立つかについての詳細は、当社のWebサイトで利用可能な多くのリソースを参照するか、今日私たちに連絡してください。