既製の顔画像およびビデオデータのライセンス

AIモデルトレーニング用の既製の顔認識データセット

倫理的に調達され、人口統計的に多様なデータセットを活用して、AI モデルのトレーニングを加速し、世界をリードするテクノロジー複合企業の偏見を軽減します。

既製の顔認識データセット

プロジェクト概観

クライアントは加速を求めた AIを活用した顔認識の開発 長期間の費用のかかるデータ収集サイクルを経ることなく、これを実現するには すぐに使えるデータセット それは 大きく多様な、 だけでなく 倫理的に調達され、世界的なデータプライバシー規制に準拠している.

Shaipは、照明、頭部のポーズ、オクルージョン、感情のバリエーションを制御した包括的なデータセットを提供しました。これにより、クライアントのモデルは、必要な民族的および人口統計的基準を満たしながら、精度と公平性を両立させることができました。各データセットには、詳細なメタデータ、ポーズの注釈、感情認識のためのバウンディングボックスが含まれており、非常に多様な現実世界のシナリオでモデルのトレーニングとテストを行うことができました。

既製の顔認識データセット

主要統計

7,000以上の科目

300,000 枚以上の画像と 2,000 本のビデオを含む歴史的データセット。

10,000以上の科目

マルチアングル感情データセットで。

74,880画像

照明分野
バリエーションデータセット。

18,600画像

6つをカバーする
核心的な感情。

プロジェクト範囲

クライアントは 大規模で倫理的に提供され、人口統計的に多様な顔画像とビデオのデータセット 顔認識モデルの開発とトレーニングを支援するために、これらのデータセットは、次のようなユースケースの推進に不可欠でした。 なりすまし防止、本人確認、画像マッチング、表情分析システム実際のアプリケーションで堅牢かつ偏りのない AI パフォーマンスを保証します。

業務範囲には以下が含まれます。

  • 納品管理 キュレーションされたデータセット なりすまし防止、本人確認、表情認識などの顔認識のユースケースに対応するように設計されています。
  • 提供 詳細な注釈付きの画像と動画 人口統計、頭の姿勢、遮蔽、照明の種類、感情など。
  • 確保 バランスの取れた人口統計的カバー トレーニングにおける体系的な偏りを減らすため。
  • 保証する 遵守と同意 世界的なデータ保護およびプライバシー基準に準拠しています。

サンプルデータセットの貢献:

  • 履歴データセット (約 7,000 名の被験者): ポーズや遮蔽のバリエーションを含む 300,000 枚以上の画像と 2,000 本のビデオ。
  • マルチアングル感情データセット (被験者約 10,000 人): 角度や感情状態を問わず、被験者ごとに 15~20 枚の画像。
  • 6つの感情データセット (約 3,100 名の被験者): 人間の主要な表情を網羅した 18,600 枚の注釈付き画像。
  • 照明変動データセット (約 468 名の被験者): 9 つの照明条件にわたる 74,880 枚の画像。

チャレンジ

このプロジェクトでは、堅牢な AI モデルの構築に共通する主要な課題に対処しました。

AIモデルのバイアス

公平性を保つために、特定の民族や性別の過剰な代表を防ぎます。

現実世界の変動

照明条件、顔の角度、遮蔽物、自然な表情を捉えます。

規模と品質

多様性を損なうことなく、数十万枚の高解像度画像を提供します。

企業コンプライアンス

参加者の完全な同意を得て、厳格な世界的なプライバシーおよびデータ保護要件を満たします。

解決策

シャイプは、 構造化されたアプローチ データセットの品質と関連性を確保するため:

  • 厳選されたバランスの取れたデータセット 幅広い民族、性別、年齢層が代表的。
  • キャプチャされた マルチアングルのポーズと照明のバリエーション 現実世界の状況を再現するため。
  • 追加されました 詳細な注釈 (例: 頭のポーズ、遮蔽、感情) を追加して、データセットの使いやすさを向上させます。
  • 厳格な 品質管理とコンプライアンスのワークフロー 倫理的な調達とプライバシーの遵守を保証するため。

データセットポートフォリオ

データセット 出来高 人口統計 / 多様性 規格/仕様
過去の顔画像と動画のデータセット(約7,000人) 登録画像 7,000 枚、履歴画像 300,000 枚以上、ビデオ 2,000 本(被験者 1,000 人あたり屋内 1 本 + 屋外 1 本) 民族:黒人(35%)、東アジア(42%)、南アジア(13%)、白人(10%)。性別:男性50%、女性50%。年齢:18歳以上(過去10年間) ビデオ時間:1~2分、頭部のポーズのバリエーション(P1~P7)、5種類の咬合タイプ(O0~O4)
顔画像データセット(約5,000人) 対象者ごとに35枚の画像、インド人2,500人、アジア人1,000人、黒人1,500人 年齢: 18~60歳; 男女比のバランスが取れている 美化なし; 背景や服装は多彩; 最小解像度: 960×1280
マルチアングル感情データセット(約10,000人の被験者 - 中国人) 被写体1人あたり15~20枚の画像。ポーズ:正面、左、右(30°~60°)。表情:笑顔、口を開けた状態、悲しい状態、真剣な状態、無表情。 民族:中国人、年齢:18~26歳、性別:50/50 解像度: 2160×3840ピクセル以上
6つの人間の感情データセット(約3,100人の被験者) 被写体ごとに6枚(表情が異なる);合計18,600枚 民族:日本人(9,000人)、韓国人(2,400人)、中国人(2,400人)、東南アジア人(2,400人)、南アジア人(2,400人); 年齢:20~65歳 感情を表す境界ボックス注釈、無地の背景、帽子、メガネ、障害物なし
照明変動データセット(インド人被験者約468名) 対象者ごとに160枚の画像、合計74,880枚の画像 年齢: 20~70歳; 70% 男性 9つの照明条件(屋内、屋外、サイドライト、バックライト、ネオンなど)
多民族の顔画像データセット(約600人) 合計3,752枚の画像 民族:アフリカ系、中東系、ネイティブアメリカン、南アジア系、東南アジア系;年齢:20~70歳 -

結果

このコラボレーションにより、ビジネスと技術に大きな影響を与えました。

  • モデルの精度の向上: 複数のユースケースにわたる顔認識モデルの精度と再現性が向上しました。
  • バイアスの低減: バランスのとれた人口統計的表現により、AI 出力における体系的な偏りが軽減されました。
  • 開発タイムラインの加速: 既製のデータセットにより、長時間のデータ収集を行わずに迅速なプロトタイピングとモデルトレーニングが可能になりました。
  • 企業コンプライアンスすべてのデータセットは世界的なプライバシー基準に準拠しており、参加者の同意も含まれています。

Shaipの多様性に富み、倫理的に調達されたデータセットは、私たちが必要とするスピード、品質、そしてコンプライアンスを実現してくれました。すぐに使えるデータによって、AIモデルのトレーニングを加速し、体系的なバイアスを大幅に削減することができました。

ゴールデン5つ星