ケーススタディ: コンテンツモデレーション
30 以上のドキュメント Web がスクラップされ、コンテンツモデレーションのために注釈が付けられました
私たちが接続して通信するオンラインスペースの安全を確保するために努めています。
ソーシャルメディアの利用が拡大し続ける中、
ネットいじめの問題が表面化している
しようとするプラットフォームにとって大きなハードル
安全なオンライン空間を確保します。 驚異的な
個人の 38% がこれに遭遇します
日常的に有害な行為、
発明に対する緊急の要求を強調する
コンテンツモデレーションアプローチ。
今日の組織は、
永続的な問題に対処するための人工知能
積極的にネットいじめの問題。
サイバーセキュリティ:
Facebook の第 4 四半期のコミュニティ スタンダード施行レポートが明らかに - 6.3 万件のいじめやハラスメント コンテンツへの対策、積極的な検出率 49.9%
教育:
A 2021 研究はそれを発見しました 視聴者の38%が米国の学生の% (%) 12&17 何年もの間、学校教育中にネットいじめを経験しました。
2020 年のレポートによると、世界のコンテンツ モデレーション ソリューション市場は 4.07 年に 2019 億 11.94 万米ドルと評価され、2027 年までに 14.7 億 XNUMX 万米ドルに達すると予想され、CAGR は XNUMX% でした。
実世界のソリューション
グローバルな会話を管理するデータ
クライアントは堅牢な自動化された
コンテンツモデレーション機械学習
クラウド サービスのモデル。
ドメイン固有のベンダーを探していました。
正確なトレーニング データで彼らを支援できます。
自然言語処理 (NLP) に関する広範な知識を活用して、クライアントが英語とスペイン語の両方で 30,000 件を超えるドキュメントを収集、分類、注釈を付けて、有害なコンテンツ、成人向けコンテンツ、または性的に露骨なコンテンツに分かれた自動コンテンツ モデレーションの機械学習モデルを構築するのを支援しました。カテゴリー。
問題
- 優先ドメインからスペイン語と英語の 30,000 件のドキュメントを Web スクレイピング
- 収集したコンテンツを短、中、長のセグメントに分類する
- コンパイルされたデータを有毒、成人向け、または性的に露骨なコンテンツとしてラベル付けする
- 最低 90% の精度で高品質の注釈を保証します。
ソリューション
- ウェブ BFSI、ヘルスケア、製造、小売から、スペイン語と英語でそれぞれ 30,000 のドキュメントを破棄しました。 コンテンツは、短、中、長のドキュメントにさらに分割されました
- 分類されたコンテンツを有毒、成人向け、または性的に露骨なコンテンツとしてラベル付けすることに成功する
- 90% の品質を達成するために、Shaip は XNUMX 段階の品質管理プロセスを実装しました。
» レベル 1: 品質保証チェック: ファイルの 100% を検証します。
» レベル 2: 重要な品質分析チェック: Shaips の CQA チームは、回顧サンプルの 15% ~ 20% を評価します。
結果
トレーニング データは、自動化されたコンテンツ モデレーション ML モデルの構築に役立ち、より安全なオンライン環境を維持するために有益ないくつかの結果を生み出すことができます。 主な成果には次のようなものがあります。
- 膨大な量のデータを処理する効率
- モデレーション ポリシーの均一な適用を確保するための一貫性
- 増大するユーザーベースとコンテンツボリュームに適応するスケーラビリティ
- リアルタイムモデレーションは、
潜在的に有害なコンテンツを生成時に削除する - 人間のモデレーターへの依存を減らすことによる費用対効果
コンテンツ モデレートの例
次のAIイニシアチブをどのように支援できるか教えてください。