ケーススタディ: コンテンツモデレーション

ソーシャルメディアの利用が拡大するにつれ、安全なオンライン空間の確保を目指すプラットフォームにとって、ネットいじめの問題が大きな障害として浮上しています。驚くべきことに、38%もの人が日常的にこの有害な行為に遭遇しており、独創的なコンテンツモデレーション手法の緊急性が浮き彫りになっています。今日、組織は人工知能(AI)を活用し、根深いネットいじめの問題に積極的に取り組んでいます。
サイバーセキュリティ:
Facebook の第 4 四半期のコミュニティ スタンダード施行レポートが明らかに - 6.3 万件のいじめやハラスメント コンテンツへの対策、積極的な検出率 49.9%
教育:
A 2021 研究はそれを発見しました 36.5%米国の学生の% (%) 12&17 何年もの間、学校教育中にネットいじめを経験しました。
2020 年のレポートによると、世界のコンテンツ モデレーション ソリューション市場は 4.07 年に 2019 億 11.94 万米ドルと評価され、2027 年までに 14.7 億 XNUMX 万米ドルに達すると予想され、CAGR は XNUMX% でした。
実世界のソリューション
グローバルな会話を管理するデータ
クライアントは、クラウド サービス向けに堅牢な自動コンテンツ モデレーション マシン ラーニング モデルを開発しており、正確なトレーニング データで支援できるドメイン固有のベンダーを探していました。
自然言語処理 (NLP) に関する広範な知識を活用して、クライアントが英語とスペイン語の両方で 30,000 件を超えるドキュメントを収集、分類、注釈を付けて、有害なコンテンツ、成人向けコンテンツ、または性的に露骨なコンテンツに分かれた自動コンテンツ モデレーションの機械学習モデルを構築するのを支援しました。カテゴリー。
問題
- 優先ドメインからスペイン語と英語の 30,000 件のドキュメントを Web スクレイピング
- 収集したコンテンツを短、中、長のセグメントに分類する
- コンパイルされたデータを有毒、成人向け、または性的に露骨なコンテンツとしてラベル付けする
- 最低 90% の精度で高品質の注釈を保証します。
解決策
- ウェブ BFSI、ヘルスケア、製造、小売から、スペイン語と英語でそれぞれ 30,000 のドキュメントを破棄しました。 コンテンツは、短、中、長のドキュメントにさらに分割されました
- 分類されたコンテンツを有毒、成人向け、または性的に露骨なコンテンツとしてラベル付けすることに成功する
- 90% の品質を達成するために、Shaip は XNUMX 段階の品質管理プロセスを実装しました。
» レベル 1: 品質保証チェック: ファイルの 100% を検証します。
» レベル 2: 重要な品質分析チェック: Shaips の CQA チームは、回顧サンプルの 15% ~ 20% を評価します。
結果
トレーニング データは、自動化されたコンテンツ モデレーション ML モデルの構築に役立ち、より安全なオンライン環境を維持するために有益ないくつかの結果を生み出すことができます。 主な成果には次のようなものがあります。
- 膨大な量のデータを処理する効率
- モデレーション ポリシーの均一な適用を確保するための一貫性
- 増大するユーザーベースとコンテンツボリュームに適応するスケーラビリティ
- リアルタイムモデレーションは、
潜在的に有害なコンテンツを生成時に削除する - 人間のモデレーターへの依存を減らすことによる費用対効果
会話型AIアプリケーション開発を100%加速
次のAIイニシアチブをどのように支援できるか教えてください。