ケーススタディ: 医療データセットのライセンス
精密なデータキュレーションと注釈トレーニングによる小児科および産婦人科医療の変革
医療データの力を解き放つ: 包括的なデータ キュレーション、匿名化、ICD-10 CM、優れた AI モデル トレーニングのための注釈。
プロジェクト概観
Shaip は、大手ヘルスケア AI 企業と提携し、高度な NLP モデルのトレーニング用に、高品質で匿名化された医療データセットをキュレートして注釈を付けました。このプロジェクトは小児科と産婦人科の専門分野に焦点を当て、堅牢な API フレームワークを介して ICD-10 CM コードで注釈を付けた外来患者の記録を提供しました。
このデータセットは、実際の医療文書に関する AI トレーニングを容易にし、臨床ナラティブを理解するモデル機能を強化するように構成されています。
主要統計
750ページ / 約300件の外来診療記録
375ページ 小児科
375ページ 産婦人科
ICD-10 CM 2023 医療コード注釈
プロジェクト範囲
| データセットのタイプ | 専門 | 出来高 | キャプチャされたメタデータ | Notes |
|---|---|---|---|---|
| 医療ノート | 小児科 | 375ページ(約150件のレコード) |
ファイル名、専門分野、 文書タイプ、患者クラス(外来) |
評価/計画セクションを含む |
| OB GYN | 375ページ(約150件のレコード) | |||
| 注釈 | ICD-10 CM(2023) | 完全なデータセット | API経由のコードマッピング | コーダーによるコード検証は範囲外です |
チャレンジ
このプロジェクトでは、綿密な計画と実行を必要とするいくつかの重大な課題がありました。
1. 専門分野に特化したデータ収集
小児科と産婦人科の専門医からのみ、高品質の外来診療記録を入手するのは困難でした。正確な注釈をサポートするために、各文書には評価や計画などの重要な臨床セクションを含める必要がありました。
2. 包括的なPHI匿名化
HIPAA 準拠には、医療コンテキストを維持しながらすべての個人識別情報 (PII) を完全に削除することが不可欠でした。プライバシー侵害を防ぐためには、詳細なレビューが必要でした。
3. 複雑なICD-10 CM注釈
API 経由で正確な ICD-10 CM (2023) コードを適用することは、さまざまな記述スタイルと医学用語があるため複雑でした。信頼性の高い AI モデル トレーニングを確保するには、コーディングの一貫性と正確性が重要でした。
4. メタデータの正確性と一貫性
専門分野、文書の種類、患者のクラスなどのメタデータを矛盾なく取得し、検証することが重要でした。不一致があると、モデルのトレーニングとデータの使いやすさに影響する可能性があります。
5. 外来患者の厳格なフィルタリング
多くの臨床文書には患者クラスが混在していたり、不完全なセクションが含まれていたりする可能性があるため、すべての記録が厳密に外来患者用であることを確認すると複雑さが増します。
6. 品質保証と精度基準
90% の精度のしきい値を満たすには、重複を排除し、専門分野の整合を検証し、匿名化を確実に行うための多段階のレビューが必要であり、必要に応じてやり直しを行う準備も必要でした。
解決策
包括的なデータライセンスと注釈
- 認可された小児科および産婦人科外来の記録
- 重要なセクションを確実に含める: 主訴、病歴、ROS、評価、計画
- API ベースの ICD-10 CM アノテーション (2023 バージョン)
匿名化とコンプライアンス
- PHI をプレースホルダー (PERSON_NAME、DATE、LOCATION など) に置き換えました
- 医療データプライバシー基準への準拠を確保
メタデータのタグ付け
- ファイルごとにキャプチャされた詳細なメタデータ:
-
- ファイル名
- 専門分野(小児科または産婦人科)
- 文書の種類(フォローアップ、H&P、相談)
- 患者クラス(外来のみ)
品質管理
- 以下の厳格な品質評価:
- 重複レコードなし
- 専門分野マッチの検証
- 外来のみの検査
- メタデータの一貫性チェック
- 90% の精度しきい値を下回る記録の置き換えまたは修正
結果
Shaip は、構造化され注釈が付けられた医療メモ データセットを提供し、クライアントが次のことを実行できるようにしました。
- 正確なICD-10 CMコード予測のためのAIモデルのトレーニング
- 実際の医療シナリオにおけるNLP機能の強化
- プライバシーと規制基準への準拠を維持する
- 小児科および産婦人科領域全体でヘルスケア AI モデルを拡大
Shaip のデータセットのキュレーションと注釈付けに対する構造化されたアプローチは、私たちの期待を上回るものでした。精度、匿名化、メタデータの精度により、AI モデルのトレーニング パイプラインが大幅に強化されました。