顔認識モデルのケーススタディ

不正行為検出 AI モデル向けのなりすまし防止ビデオ データセット

Shaip が、実際の攻撃シナリオとリプレイ攻撃シナリオを収録した 25,000 件の高品質ななりすまし防止ビデオ データセットを提供し、不正行為検出用の AI モデルをトレーニングした方法をご覧ください。

なりすまし防止ビデオデータ収集

プロジェクト概観

Shaip は、大手 AI セキュリティ企業と提携して、不正検出のための AI モデルのトレーニングを強化するために設計された、高品質ですぐに使用できるなりすまし防止ビデオ データセットを提供しました。データセットには、実際の攻撃シナリオとリプレイ攻撃シナリオの両方をキャプチャした 25,000 本のビデオが含まれており、なりすまし防止モデルの堅牢なトレーニング データを確保しています。

それぞれ 12,500参加 2本のビデオ(1本は実際の攻撃、もう1本はリプレイ攻撃)を投稿しました。 720p以上の解像度 フレームレートは 26 FPS以上.

このプロジェクトの目標は、 本物で多様なデータセット これにより、AI モデルは本物の生体認証ビデオと偽造された生体認証ビデオを効果的に区別できるようになり、生体認証システムにおける不正リスクを軽減できます。

なりすまし防止ビデオデータ収集

主要統計

25,000 合計動画数(12,500 実際のビデオ、 12,500 リプレイ攻撃動画)

12,500 ユニーク
参加者

5 民族グループ
データセットに表される

段階的な配信: 4 のバッチ 6,250 各ビデオ

メタデータ属性: 12 データセットの使いやすさを向上させるための重要なパラメータ

なりすまし防止生体認証データセットの範囲

データセットのキュレーション: このプロジェクトは、以下の高品質ななりすまし防止ビデオデータセットを提供することに焦点を当てていました。 実際の攻撃ビデオとリプレイ攻撃ビデオ主な側面は次のとおりです。

  • 12,500参加 貢献 それぞれ2本のビデオ (本物 1 つ、偽物 1 つ)。
  • 録音機器の多様性 モデルの適応性を高めるため。
  • バランスのとれた民族的代表 データセットの包括性を確保するため。

メタデータ収集: 各ビデオには 12 個のメタデータ属性 データセットの使いやすさを向上させるため。

ビデオデータ収集の課題

平等な代表性の確保

高品質のビデオを調達しながら、民族別にバランスの取れたデータ配分を維持します。

品質管理

データセットの整合性を維持するために、各参加者が実際の攻撃ビデオ 1 本とリプレイ攻撃ビデオ 1 本を提供することを確認します。

技術的な一貫性

FPS (≥ 26)、解像度 (≥ 720p)、タイムスタンプ精度 (+/- 0.5ms) に関する厳格なガイドラインに準拠します。

どのように解決したか

Shaip は、プロジェクトの要件を満たす構造化された高品質のデータセットを提供しました。ソリューションには以下が含まれていました。

データセットのキュレーションと品質管理

  • 25,000ビデオ 収集された 4期 ボトルネックを回避し、安定した構造化されたデータフローを確保します。
  • 厳格な検証プロセス の遵守を確保するため FPS、解像度、メタデータの精度各ビデオは、最終承認前に複数回の品質チェックを受けました。
  • 包括的なメタデータタグ付け   12つの属性:
  • ファイルID/名前
  • 攻撃の種類(リアル/リプレイ)
  • 人物ID
  • ビデオ解像度
  • ビデオ再生時間
  • 被験者の民族
  • 被験者の性別
  • 動画がオリジナルか偽物か
  • デバイス名/モデル
  • 話している人または話していない人
  • タイムスタンプ開始時間
  • タイムスタンプ終了時間
  • バランスのとれた民族分布: データセットは、民族のバランスを保つために細心の注意を払ってキュレーションされています。分布には、ヒスパニック (33%)、南アジア (21%)、コーカサス (20%)、アフリカ (15%)、東アジアおよび中東の人口 (それぞれ最大 6%) が含まれます。
  • 重複したエントリはありません データセットの一意性を維持し、AI トレーニングにおける偏りを防ぐためです。
  • 民族的に多様な参加者の選出 現実世界のユーザーの多様性を反映したデータセットを作成し、AI モデルの適応性と公平性を向上させます。
  • 録音機器のバリエーション さまざまな環境設定に対するモデルの堅牢性を高めるために、複数のスマートフォン モデル、カメラ、照明条件が組み込まれました。

結果

Shaip が提供する高品質で多様ななりすまし防止ビデオ データセットにより、クライアントは AI モデルをトレーニングして、さまざまな生体認証シナリオで本物のビデオとなりすましのビデオを正確に区別できるようになりました。データセットは次のことに貢献しました。

不正検出の改善

不正な生体認証攻撃を検出する AI パフォーマンスが強化されました。

多様な学習データ

さまざまな民族、デバイス、環境条件にわたるリプレイ攻撃を認識するモデルの能力を強化しました。

スケーラビリティ

このデータセットは、将来のなりすまし防止モデルの強化と拡張の基盤として機能します。

Shaip のデータセットは、当社の AI 駆動型なりすまし防止モデルの強化に役立っています。多様性、品質、構造化されたメタデータは、生体認証システムにおける不正検出を改善するための強力な基盤を提供しました。

ゴールデン 5 つ星