年齢の進行に合わせて多様性を考慮した非EU/英国顔画像データセットの構築
コンピューター ビジョン モデルの公平性と堅牢性を強化するための、1,205 人の参加者による時間的に分離された顔画像コーパス。
プロジェクト概観
安全性、パーソナライゼーション、アイデンティティ体験のための顔中心の AI を構築している世界的なテクノロジー企業は、バイアスを減らし、年齢、環境、アクセサリにわたるモデルの復元力を向上させるために、時間的に区切られた写真を含む非 EU/英国データセットを求めていました。
クライアントはシャイプと提携して 収集、キュレーション、検証 各参加者が最近と過去の写真を投稿する大規模な顔画像コーパス。EU/英国以外からの出所を厳格に規定し、性別と年齢のバランスを保ちながら、自然な年齢変化をエンコードすることを目指しました。
主要統計
一般
1,205(EU/英国以外、男女比50/50 ±10~15%)
年齢構成
40% (10–29), 40% (30–49), 20% (50+) ±10–15% の許容範囲
カバレッジ
南アジア/東南アジア、北アフリカおよび北東アフリカ、シンガポール、南アメリカ
タイムライン
19週間
チャレンジ
地理的制限
旅行起源の EU/UK のイメージを避けながら、非 EU/UK 人口のみから調達します。
大規模なバランスの取れた割り当て
性別や年齢の許容範囲が厳密な 1,205 名の参加者に達しました。
時間的に隔てられた証拠
すべての ID に、年齢層に合わせて最近の写真と過去の写真の両方が含まれていることを確認します。
運用品質
スループットを低下させることなく、画像/顔の最小サイズ、種類、重複の制限を適用します。
解決策
1. 国別パネルと原産地管理
私たちは設立しました 国レベルの調達ポッド 対象地域全体と訓練を受けたパートナー 出所ルール (EU/英国以外からの入国者のみ)。写真は渡航元のリスクに基づいて審査されました。 メタデータの手がかり(年、場所マーカー) さらに提出者の証明も提供することで、品質管理前のEU/英国間の漏洩を削減します。これは、下流のスループットを保護するためにリスクチェックを前倒しするという、Shaipの実績ある手法を反映しています。
2. 年齢進行キャプチャデザイン
「20枚の画像を要求する」のではなく、 2つのトラックの提出フロー 参加者を次のように導きました。
- トラックA(最新): 過去2年間の写真。
- トラックB(ヒストリー): 古い写真は、提出時の参加者の年齢層に合わせて配置されます (例: 2~10/15/20 歳の期間)。
ポータルでは、過度に指定することなく多様性を促進するために、例(屋内/屋外、角度、アクセサリ)を使用してユーザーを促しました。
3. 多様性オーケストレーションとクォータガードレール
A リアルタイムクォータダッシュボード 監視対象登録者 性別、年齢層、地域層が計画された上限に達した時点で摂取を一時停止する。これはサイクル後半のやり直しを防ぎ、シャイプの標準的なアプローチを反映している。 階層化入学 + ロックアウト バランスの取れた表現を維持するために、以前の生体認証データセットで使用されていました。
4. 品質パイプライン(人間による介入 + 自動事前チェック)
- 自動ゲート: 顔検出 + 最小サイズのしきい値、基本的なぼかし/ノイズ チェック、重複の可能性を早期に検出するための同日クラスタリング。
- 人間のQA層: 画像レベルのレビュー担当者が検証 主題の排他性 (主な参加者のみ) シーン/アングルの多様性, 美化フィルターなしCQA監査員は受入れ前にバッチを抜き取り検査する。これは 多層QA Shaip が公開した生体認証データ プログラムを反映しています。
5. コンプライアンスと同意
エンロールメント(登録) 20歳以上 署名入りの同意書が必要です。20件未満の場合は保護者の同意書があれば受け付けます。同意書の有無をメタデータに記録し、レビュー担当者のチェックリストを次のように調整しました。 適格性 + 同意 フィールドを監査可能にします。
6. メタデータとトレーサビリティ
私たちは配達しました 参加者および画像レベルのメタデータ (IDリンク、人口統計、国籍/居住地、写真の年、提出日など)と標準化されたフィールド名により、 下流のラベリングと評価これはシャイプのベストプラクティスに従っています 豊富なメタデータタグ付け 生体認証データセット用。
7. リスク規模縮小のための段階的な導入
An 8バッチプラン で始まりました 10人の参加者のキャリブレーション 設定後、制御されたスケールアップを実施しました。バッチ1後の顧客からのフィードバックに基づいてルーブリックを微調整し、その後、予測可能なトランシェでボリュームを段階的に増加させ、目標を達成しました。 1,205参加 約19週間後。
プロジェクト範囲
| 次元 | 私たちが提供したもの |
|---|---|
| 人口 | 性別と年齢層のバランスが取れた、EU/英国以外の参加者 1,205 名。 |
| コンテンツ | 参加者 1 人あたり 20 枚以上の画像: 年齢の進行を表す最近の画像と過去の画像、さまざまなシーン、角度、アクセサリ。 |
| 品質オペレーション | 自動化された事前チェック + 人間による多層 QA (重複制御、主題の排他性、フィルターの拒否)。 |
| コンプライアンス | 非 EU/英国起源検証、同意ガバナンスおよび適格性検証。 |
| トレーサビリティと下流の ML 評価のための参加者 + 画像属性。 | |
| 出荷 | 8 段階のバッチ。キャリブレーションから始まり、最終ターゲットまで安定した状態で配信されます。 |
アウトカム
- バランスのとれた、監査準備の整ったコーパス: 人口統計上の割り当ては許容範囲内で満たされ、準拠したトレーニングのために、すべての画像で非 EU/英国由来が強制されました。
- モデル準備の変動性: 時間的に分離された画像、多様な環境/角度、アクセサリの範囲により、堅牢性のテストとバイアス分析がサポートされます。
- 運用の予測可能性: キャリブレーションの最初のロールアウトと割り当てガードレールにより、やり直し作業が削減され、1,205 人の参加者という目標の達成までのタイムラインが確保されました。
- 下流効率: 豊富なメタデータと一貫したファイル衛生により、Shaip の生体認証データセット プレイブックに従って、注釈とベンチマークの構築までのパスが短縮されました。
Shaipは、複雑な非EU/英国顔認識データセットの要件を、バランスの取れた監査対応可能なコーパスへと変換しました。彼らの年齢進行設計と階層化された品質保証により、当社の履歴書チームは、スケジュールリスクを負うことなく、信頼できるクリーンで多様なデータを得ることができました。