既製の顔画像およびビデオデータのライセンス
AIモデルトレーニング用の既製の顔認識データセット
倫理的に調達され、人口統計的に多様なデータセットを活用して、AI モデルのトレーニングを加速し、世界をリードするテクノロジー複合企業の偏見を軽減します。
プロジェクト概観
クライアントは加速を求めた AIを活用した顔認識の開発 長期間の費用のかかるデータ収集サイクルを経ることなく、これを実現するには すぐに使えるデータセット それは 大きく多様な、 だけでなく 倫理的に調達され、世界的なデータプライバシー規制に準拠している.
Shaipは、照明、頭部のポーズ、オクルージョン、感情のバリエーションを制御した包括的なデータセットを提供しました。これにより、クライアントのモデルは、必要な民族的および人口統計的基準を満たしながら、精度と公平性を両立させることができました。各データセットには、詳細なメタデータ、ポーズの注釈、感情認識のためのバウンディングボックスが含まれており、非常に多様な現実世界のシナリオでモデルのトレーニングとテストを行うことができました。
主要統計
7,000以上の科目
300,000 枚以上の画像と 2,000 本のビデオを含む歴史的データセット。
10,000以上の科目
マルチアングル感情データセットで。
74,880画像
照明分野
バリエーションデータセット。
18,600画像
6つをカバーする
核心的な感情。
プロジェクト範囲
クライアントは 大規模で倫理的に提供され、人口統計的に多様な顔画像とビデオのデータセット 顔認識モデルの開発とトレーニングを支援するために、これらのデータセットは、次のようなユースケースの推進に不可欠でした。 なりすまし防止、本人確認、画像マッチング、表情分析システム実際のアプリケーションで堅牢かつ偏りのない AI パフォーマンスを保証します。
業務範囲には以下が含まれます。
- 納品管理 キュレーションされたデータセット なりすまし防止、本人確認、表情認識などの顔認識のユースケースに対応するように設計されています。
- 提供 詳細な注釈付きの画像と動画 人口統計、頭の姿勢、遮蔽、照明の種類、感情など。
- 確保 バランスの取れた人口統計的カバー トレーニングにおける体系的な偏りを減らすため。
- 保証する 遵守と同意 世界的なデータ保護およびプライバシー基準に準拠しています。
サンプルデータセットの貢献:
- 履歴データセット (約 7,000 名の被験者): ポーズや遮蔽のバリエーションを含む 300,000 枚以上の画像と 2,000 本のビデオ。
- マルチアングル感情データセット (被験者約 10,000 人): 角度や感情状態を問わず、被験者ごとに 15~20 枚の画像。
- 6つの感情データセット (約 3,100 名の被験者): 人間の主要な表情を網羅した 18,600 枚の注釈付き画像。
- 照明変動データセット (約 468 名の被験者): 9 つの照明条件にわたる 74,880 枚の画像。
チャレンジ
このプロジェクトでは、堅牢な AI モデルの構築に共通する主要な課題に対処しました。
AIモデルのバイアス
公平性を保つために、特定の民族や性別の過剰な代表を防ぎます。
現実世界の変動
照明条件、顔の角度、遮蔽物、自然な表情を捉えます。
規模と品質
多様性を損なうことなく、数十万枚の高解像度画像を提供します。
企業コンプライアンス
参加者の完全な同意を得て、厳格な世界的なプライバシーおよびデータ保護要件を満たします。
解決策
シャイプは、 構造化されたアプローチ データセットの品質と関連性を確保するため:
- 厳選されたバランスの取れたデータセット 幅広い民族、性別、年齢層が代表的。
- キャプチャされた マルチアングルのポーズと照明のバリエーション 現実世界の状況を再現するため。
- 追加されました 詳細な注釈 (例: 頭のポーズ、遮蔽、感情) を追加して、データセットの使いやすさを向上させます。
- 厳格な 品質管理とコンプライアンスのワークフロー 倫理的な調達とプライバシーの遵守を保証するため。
データセットポートフォリオ
| データセット | 出来高 | 人口統計 / 多様性 | 規格/仕様 |
|---|---|---|---|
| 過去の顔画像と動画のデータセット(約7,000人) | 登録画像 7,000 枚、履歴画像 300,000 枚以上、ビデオ 2,000 本(被験者 1,000 人あたり屋内 1 本 + 屋外 1 本) | 民族:黒人(35%)、東アジア(42%)、南アジア(13%)、白人(10%)。性別:男性50%、女性50%。年齢:18歳以上(過去10年間) | ビデオ時間:1~2分、頭部のポーズのバリエーション(P1~P7)、5種類の咬合タイプ(O0~O4) |
| 顔画像データセット(約5,000人) | 対象者ごとに35枚の画像、インド人2,500人、アジア人1,000人、黒人1,500人 | 年齢: 18~60歳; 男女比のバランスが取れている | 美化なし; 背景や服装は多彩; 最小解像度: 960×1280 |
| マルチアングル感情データセット(約10,000人の被験者 - 中国人) | 被写体1人あたり15~20枚の画像。ポーズ:正面、左、右(30°~60°)。表情:笑顔、口を開けた状態、悲しい状態、真剣な状態、無表情。 | 民族:中国人、年齢:18~26歳、性別:50/50 | 解像度: 2160×3840ピクセル以上 |
| 6つの人間の感情データセット(約3,100人の被験者) | 被写体ごとに6枚(表情が異なる);合計18,600枚 | 民族:日本人(9,000人)、韓国人(2,400人)、中国人(2,400人)、東南アジア人(2,400人)、南アジア人(2,400人); 年齢:20~65歳 | 感情を表す境界ボックス注釈、無地の背景、帽子、メガネ、障害物なし |
| 照明変動データセット(インド人被験者約468名) | 対象者ごとに160枚の画像、合計74,880枚の画像 | 年齢: 20~70歳; 70% 男性 | 9つの照明条件(屋内、屋外、サイドライト、バックライト、ネオンなど) |
| 多民族の顔画像データセット(約600人) | 合計3,752枚の画像 | 民族:アフリカ系、中東系、ネイティブアメリカン、南アジア系、東南アジア系;年齢:20~70歳 | - |
結果
このコラボレーションにより、ビジネスと技術に大きな影響を与えました。
- モデルの精度の向上: 複数のユースケースにわたる顔認識モデルの精度と再現性が向上しました。
- バイアスの低減: バランスのとれた人口統計的表現により、AI 出力における体系的な偏りが軽減されました。
- 開発タイムラインの加速: 既製のデータセットにより、長時間のデータ収集を行わずに迅速なプロトタイピングとモデルトレーニングが可能になりました。
- 企業コンプライアンスすべてのデータセットは世界的なプライバシー基準に準拠しており、参加者の同意も含まれています。
Shaipの多様性に富み、倫理的に調達されたデータセットは、私たちが必要とするスピード、品質、そしてコンプライアンスを実現してくれました。すぐに使えるデータによって、AIモデルのトレーニングを加速し、体系的なバイアスを大幅に削減することができました。