腫瘍学データの精度: NLP モデルの革新のためのライセンシング、匿名化、およびアノテーション
最先端の NLP テクノロジーでがん治療に革命を起こします。
プロジェクト概観
ヘルスケア業界の大手企業であるこのクライアントは、大量の腫瘍医療記録を処理するための高度な NLP ソリューションを必要としていました。 腫瘍学研究を洗練させるための極めて重要な取り組みの一環として、詳細なデータ分析と厳格なプライバシー基準のバランスをとる必要性が最も重要です。 このケーススタディでは、HIPAA が提供する規制の枠組みの中で、高忠実度のデータ アノテーション、厳密な匿名化の実践、自然言語処理 (NLP) 技術の適用を通じて、クライアントの研究活動を強化するための当社の貢献について概説します。

主要統計
データライセンス
+ データ削除
10,000ページ
非腫瘍学
ドメイン
10,000ページ
腫瘍学
ドメイン
10,000ページ
腫瘍学
の関係
4500ページ
否定
9000ページ
NER + 関係
マッピング
1223ページ
課題
このプロジェクトでは、HIPAA 規制に従って患者のプライバシーを保護する安全なフレームワークの中で、臨床文書の微妙な理解、医療機関の正確な特定、否定ラベルを正確に適用する能力が必要でした。 この取り組みには、大量の複雑なデータを処理するための技術的な専門知識だけでなく、フィードバックを取り入れてアノテーション プロセスのすべての段階で品質を維持するための戦略的アプローチも必要でした。
サービスの詳細な説明:
- 包括的な臨床データの範囲: さまざまなメモの種類、ケア環境、腫瘍学の専門分野にまたがり、多様な臨床シナリオを反映した堅牢なデータセットを確保します。
- 厳格な匿名化: HIPAA のセーフハーバー手法に従ってすべてのラベル付きレコードが匿名化されていることを確認し、データのプライバシーとセキュリティに対するクライアントの信頼を確保します。
- 注釈のガイドライン: HIPAA 標準に沿ってラベル付きレコードを準備するための標準データ注釈ガイドラインの作成と実装。
- 高度な注釈テクニック: 10,000 ページに及ぶ腫瘍学関連の記録に NLP を適用し、事前に確立されたガイドラインに従って否定ステータスやその他の関連詳細を複雑にラベル付けします。
- 厳格な品質保証: ガイドラインに概説されている指定された品質基準を達成します。
解決策
私たちのアプローチには、次の主要な戦略が含まれていました。
包括的な臨床データの範囲
データセットをクライアントの特定のニーズに合わせて調整するために、Shaipの5万件を超える電子健康記録の広範なリポジトリから、ターゲットを絞ったデータが慎重に抽出されました。このキュレーションされたデータセットには、さまざまなメモの種類とケアの設定が含まれており、豊富で多様な情報を提供します。
さまざまな臨床シナリオに対応します。これにより、包括的であるだけでなく、現実世界の医療データを高度に代表するデータセットが保証されます。
厳格な匿名化
このプロセスは、HIPAA の匿名化のためのセーフハーバー方式に厳密に準拠しており、データのプライバシーとセキュリティに対するクライアントの信頼を保証します。 これには、すべての保護された医療情報 (PHI) を削除し、ラベル付きのプレースホルダーに置き換えることが含まれます。これにより、患者の機密性を保護しながらデータの有用性が維持されます。
匿名化変数
カテゴリー | 下位範疇 |
---|---|
お名前 | 患者名、医師名、看護師名、家族名、医療機関名、クリニック名、老人ホーム名、会社名、大学名 |
年数 | |
日付 | 日付パターン、月年パターン、日月パターン、日年パターン、日、月、年、季節 |
会社名 | 国、州、都市、番地、郵便番号、部屋番号、スイート番号、階数 |
ID | 社会保障番号、医療記録番号、健康保険受益者番号、口座番号、証明書/ライセンス番号、生体認証 ID、記録 ID、受入番号、車両識別番号、ナンバープレート番号、デバイス識別子およびシリアル番号 |
コンタクト | 電話番号、FAX番号、メールアドレス、Web URL、IPアドレス |
例:
25年2106月11日午前00時、90歳のハリー・ペイス氏は股関節手術の予定のためフォレスト総合病院に入院したが、事前に主治医のホセ・マーティン博士の相談を受け、ケンドラ・リース氏も付き添った。医学博士。 滞在中、彼はメアリー・フー(NP)とスーザン・レイ(RN)のケアを受け、ペンシルベニア州のR・チャールズ・メランソンにも相談を受けた。 入院と同じ日に行われた手術は成功し、合併症は報告されなかった。 手術後、ペース氏は回復のため、202階2号室に移送された。 彼の妻、エマ・ペースは終始同席し、必要な最新情報をすべて提供されました。 短期間の滞在中、MRN MR99062619 およびアカウント KV000014764 を含む彼の医療記録は、以前の居住地であるグレースウッド ナーシング ホームの標準プロトコルに従って処理されました。 彼は同日遅くに退院し、さらなる療養のためオークランド外来診療所に運ばれた。 プロセス全体を通じて、すべての手順が文書化され、機密保持基準を遵守して確保されています。
例: 匿名化
On 【日付パターン】、午前11時に、Mr. [患者名]、高齢 [年]、に入院しました 【医療機関名】 計画された股関節手術のため、以前主治医の医師から相談を受けていました。 【医師名】、そして出席者 【医師名】 医学博士。 滞在中、彼は次のようなケアを受けていました。 [看護師]、NP、および [看護師]、RN、 【医師名】、PA も診察を受けています。入院当日に行われた手術は成功し、合併症は報告されていません。手術後、Mr. [患者名] 号室に移されました。 [部屋番号]、階数 [階数]、回復のために。彼の妻は、 [家族名]は、滞在中ずっと同席し、必要な最新情報をすべて提供されました。彼の短い滞在中に、MRNを含む彼の医療記録は 【カルテ番号】 とアカウント [口座番号]は、標準プロトコルに従って処理されました [老人ホーム名]、彼の以前の居住地。彼は同日遅くに退院し、 【クリニック名】 さらなる回復のために。 プロセス全体を通じて、すべての手順が文書化され、機密保持基準を遵守して確保されています。
注釈のガイドラインと高度な注釈技術
シャイプは、すべてのラベル付き記録が一貫してHIPAA標準に準拠して準備されるように、標準データ注釈ガイドラインの確立と実装に尽力しました。さらに、さまざまな医療記録の10,000ページに細心の注意を払って注釈が付けられ、
否定ステータスと、さまざまな腫瘍学の専門分野を含むその他の臨床的に関連するエンティティの詳細なラベル付けに重点を置いています。注釈付けは、腫瘍学とデータプライバシー規制の専門知識を持つ専門の注釈者チームによって実行されました。
複雑な注釈
カテゴリー | 下位範疇 |
---|---|
日付 アノテーション (腫瘍学) | 診断日、ステージ日、発症日、処置日、投薬開始日、投薬終了日、 照射開始日、照射終了日 |
罹患率 (腫瘍学) | がんの問題、組織学、臨床状態、体の部位、行動、グレード、がんのステージ、TNM ステージ、腫瘍マーカー検査、寸法、コード |
治療 (腫瘍学) | がん治療、薬剤投与量、頻度、がん手術、手術結果、放射線治療法、放射線量 |
ゲノミクス | バリエーションコード、研究された遺伝子、方法、検体 |
否定 | 陰性、陰性の可能性、不確実、陽性の可能性 |
臨床NER の関係 | がんの問題 – 身体部位、組織学 – 身体部位、行動 – 身体部位、がん手術 – 身体部位、放射線療法 – 身体部位、組織学 – グレード、がんの問題 – 寸法 |
例:
腫瘍学の臨床ノートに関する声明
「患者のジェーン・ドウは、03年05月2023日にステージIIIBの非小細胞肺がん(NSCLC)、特に腺がんと診断されました。 がんは肺の右下葉にあります。 TNM 病期分類システムによれば T3N2M0 に分類され、腫瘍サイズは 5 cm x 3 cm です。 腫瘍生検標本の PCR 分析により、EGFR エクソン 19 の欠失が特定されました。 カルボプラチン AUC 5 とペメトレキセド 500 mg/m² による化学療法は 03 年 20 月 2023 日に開始され、3 週間ごとに投与される予定です。 60回に分けて30Gyの線量での体外照射療法(EBRT)が04年01月2023日に開始された。 患者の治療は継続中ですが、最近のMRI検査では脳転移の証拠はありません。 リンパ管浸潤の可能性はまだ判明しておらず、完全な化学療法レジメンに対する患者の耐性は依然として不確実である。
腫瘍学臨床ノート声明:
厳格な品質保証
厳格な品質基準を維持しながら、クライアントのフィードバックを効果的に統合する柔軟なプロジェクト管理フレームワークを実装しました。包括的な品質保証プロトコルが実施され、必要な品質ベンチマークを達成するためのガイドラインに準拠しています。このプロトコルでは、注釈付きデータの精度と信頼性を確保するために、レビューと検証が連続的に行われます。このような綿密な品質管理は、情報に基づいた臨床上の意思決定と研究の卓越性に不可欠な、信頼できる NLP ソリューションを作成する上で非常に重要です。
アウトカム
10,000 件の高品質で匿名化されたラベル付きレコードを正常に提供し、クライアントの NLP モデル開発に安全で価値のあるデータセットを提供しました。NLP を慎重に適用し、HIPAA 匿名化標準に準拠することで、クライアントの現在および将来の腫瘍学研究の取り組みの基盤となる高度に洗練されたデータセットが実現し、最終的には腫瘍学患者の転帰とケア提供の効率性の向上を目指します。
このプロジェクトの成功は、複雑な医療データを正確に処理する当社の能力を示しており、患者の治療成果を改善し、ヘルスケアの革新を加速するというクライアントの目標に貢献しています。
Shaip とのパートナーシップは、腫瘍学領域における NLP 機能の向上に貢献してきました。 詳細な否定やその他の臨床実体が注釈付けされた 10,000 件の医療記録を専門的に処理することで、卓越性とコンプライアンスへの取り組みが実証されました。 さらに、HIPAA などのプライバシー基準に対する彼らの取り組みは、最先端の腫瘍治療と診断の開発という AI の取り組みを推進するための貴重なリソースを私たちに提供してくれました。