データ注釈 – NER

臨床NLPの固有表現抽出(NER)注釈

注釈なし

臨床 NLP をトレーニング/開発して次のバージョンのヘルスケア API を構築するための、十分に注釈が付けられたゴールド スタンダードの臨床テキスト データ

臨床自然言語処理 (NLP) の重要性はここ数年でますます認識され、変革的な進歩につながりました。 臨床 NLP を使用すると、医師が書いた患者の分析の背後にある豊かな意味をコンピューターが理解できるようになります。 臨床 NLP には、集団健康分析から臨床文書の改善、音声認識、臨床試験の照合などに至るまで、複数のユースケースがあります。

臨床 NLP モデルを開発してトレーニングするには、正確で偏りのない、十分に注釈が付けられた膨大な量のデータセットが必要です。 ゴールド スタンダードと多様なデータは、NLP エンジンの精度と再現率の向上に役立ちます。

音量

注釈が付けられた文書の数
10
注釈付きのページ数
10 +
プロジェクト期間
< 1 ヶ月

課題

クライアントは、新しいエンティティ タイプを使用して自然言語処理 (NLP) プラットフォームをトレーニングおよび開発し、さまざまなタイプ間の関係を特定することを楽しみにしていました。 さらに、彼らは高い精度を提供し、現地の法律を遵守し、大量のデータに注釈を付けるために必要な医療知識を備えているベンダーを評価していました。

このタスクは、入院患者および外来患者の電子医療記録 (EHR) データからの最大 20,000 件のラベル付きレコードと、転写された医療口述からの最大 15,000 件のラベル付きレコードを含む、(5,000) 地理的な出所および ( 1) 利用可能な医療専門分野。

したがって、課題を要約すると次のようになります。

  • 異種の臨床データを整理して NLP プラットフォームをトレーニングする
  • さまざまなエンティティ間の関係を特定して重要な情報を導き出す
  • 広範囲にわたる複雑な臨床文書にラベル付け/注釈を付ける能力と専門知識
  • 規定の時間枠内で臨床 NLP をトレーニングするために大量のデータにラベル付け/注釈を付けるコストを管理します。
  • 75% の EHR レコードと 25% のディクテーション レコードで構成される臨床データセット内のエンティティに注釈を付けます。
  • 配送時のデータの匿名化

自然言語理解におけるその他の課題

曖昧さ

単語は固有ですが、文脈に応じて異なる意味を持つ可能性があり、その結果、語彙、構文、意味のレベルで曖昧さが生じます。

同義語

同じ考えを、同義語でもあるさまざまな用語で表現できます。オブジェクトを説明するとき、「大きい」と「大きい」は同じ意味です。

共参照

テキスト内の同じエンティティを参照するすべての表現を見つけるプロセスは、共参照解決と呼ばれます。

性格、意図、感情

話し手の性格に応じて、同じアイデアでも意図や感情が異なる表現になる可能性があります。

ソリューション

大量の医療データと知識が医療文書の形で入手可能ですが、それらは主に非構造化形式です。 Shaip は、医療実体アノテーション / 固有実体認識 (NER) アノテーションを使用して、さまざまなタイプの臨床記録からの有用な情報に注釈を付けることで、非構造化データを構造化フォーマットに変換することができました。 エンティティが特定されると、重要な情報を特定するためにエンティティ間の関係もマッピングされます。

作業範囲: 医療機関の注釈への言及

9 エンティティ タイプ

  • 病状
  • 医療処置
  • 解剖学的構造
  • 医療
  • 医療機器
  • 身体測定
  • 薬物乱用
  • 検査データ
  • 身体機能

17 修飾子

  • 薬剤修飾子: 強度、単位、投与量、開始日、頻度、経路、期間、ステータス
  • 身体測定の修飾子: 値、単位、結果
  • プロシージャ修飾子: メソッド
    • 検査データ修飾子: 検査値、検査単位、検査結果
  • 重大度
  • 手続き結果

27 人間関係と患者の状態

結果

注釈付きデータは、クライアントの臨床 NLP プラットフォームの開発とトレーニングに使用され、ヘルスケア API の次のバージョンに組み込まれます。 クライアントが得たメリットは次のとおりです。

  • ラベル付け/注釈付けされたデータは、クライアントの標準データ注釈ガイドラインを満たしていました。
  • 精度を高めるために、異種データセットを使用して NLP プラットフォームをトレーニングしました。
  • 重要な医療情報を得るために、さまざまなエンティティ間の関係、つまり解剖学的身体構造 <> 医療機器、病状 <> 医療機器、病状 <> 薬剤、病状 <> 手順が特定されました。
  • ラベル/注釈が付けられた広範なデータセットも、配信時に匿名化されました。

Shaip との協力により、ヘルスケアにおけるアンビエント テクノロジーと会話型 AI のプロジェクトが大幅に前進しました。 合成医療対話の作成と転写に関する彼らの専門知識は強固な基盤を提供し、規制上の課題を克服する際の合成データの可能性を示しました。 Shaip を使用することで、これらのハードルを乗り越え、直感的なヘルスケア ソリューションのビジョンの実現に一歩近づきました。

ゴールデン 5 つ星

会話型AIを加速する
100%のアプリケーション開発