医療データセット

機械学習プロジェクトに最適なオープンソースのヘルスケア データセット

  • 世界的な医療システムでは毎日膨大な量の医療データが生成されており、機械学習アプリケーションに利用される可能性があります。あらゆる業界において、データは企業が競争力を高めるための貴重な資産とみなされており、ヘルスケア分野も例外ではありません。

この記事では、医療データを扱う際に直面する障害について簡潔に説明し、公的にアクセス可能な医療データセットの概要を提供します。

医療データセットの重要性

医療データセットの重要性

ヘルスケア データセットは、医療記録、診断、治療法、遺伝子データ、ライフスタイルの詳細などの患者情報の集合です。 AIがますます使用される今日の世界では、それらは非常に重要です。その理由は次のとおりです。

患者の健康状態を理解する:

医療データセットは、医師に患者の健康状態の全体像を提供します。たとえば、患者の病歴、薬、ライフスタイルに関するデータは、患者が慢性疾患にかかる可能性があるかどうかを予測するのに役立ちます。これにより、医師は早期に介入して、その患者専用の治療計画を立てることができます。

医学研究の支援:

医療データセットを研究することで、医学研究者はがん患者がどのように治療され、どのように回復するかを調べることができます。彼らは現実世界で最も効果的な治療法を見つけることができます。たとえば、バイオバンクの腫瘍サンプルや患者の治療歴を調べることで、研究者は特定の変異やがんタンパク質がさまざまな治療法にどのように反応するかを知ることができます。このデータ主導のアプローチは、患者の転帰の向上につながる傾向を見つけるのに役立ちます。

より良い診断と治療:

医師は AI ツールを使用して医療データセットを調べ、重要なパターンを見つけます。これは、病気の診断と治療をより適切に行うのに役立ちます。放射線医学では、AI は人間よりも迅速かつ正確にスキャンの問題を見つけることができます。これは、医師が病気をより早く発見し、適切な治療をより早く開始できることを意味します。医療画像のアノテーションにより、より迅速かつ適切な診断が可能になり、患者の健康状態が改善されます。

公衆衛生への取り組みを支援:

医療専門家がデータセットを使用してインフルエンザの流行を追跡した小さな町を想像してください。彼らはパターンを観察し、影響を受けた領域を見つけました。このデータを利用して、彼らは対象を絞ったワクチン接種の推進と健康教育キャンペーンを開始しました。このデータ主導のアプローチはインフルエンザの封じ込めに役立ちました。これは、医療データセットが公衆衛生の取り組みをどのように積極的に導き、改善できるかを示しています。

機械学習用のオープンソース医療データセット

オープンなデータセットは、機械学習モデルが適切に機能するために不可欠です。機械学習はすでにライフサイエンス、ヘルスケア、医療の分野で活用されており、大きな成果をあげています。病気を予測し、それがどのように広がるかを理解するのに役立ちます。機械学習はまた、地域内の病人、高齢者、体調不良の人々を適切にケアする方法についてのアイデアも与えてくれます。優れたデータセットがなければ、これらの機械学習モデルは不可能です。

一般および公衆衛生:

  • データ.gov: 複数のパラメータを使用して簡単に検索できる米国向けのヘルスケア データに焦点を当てています。データセットは、米国に居住する個人の幸福を増進するように設計されています。ただし、この情報は、研究や追加の公衆衛生分野における他のトレーニング セットにも有益であることが判明する可能性があります。
  • : 世界的な健康上の優先事項を中心としたデータセットを提供します。このプラットフォームにはユーザーフレンドリーな検索機能が組み込まれており、当面のトピックを包括的に理解するためにデータセットとともに貴重な洞察を提供します。
  • Re3データ: いくつかの広範な領域に分類された 2,000 を超える研究対象にわたるデータを提供します。すべてのデータセットに自由にアクセスできるわけではありませんが、プラットフォームは構造を明確に示しており、料金、メンバーシップ要件、著作権制限などの要素に基づいて簡単に検索できます。
  • ヒト死亡率データベース 35 か国の死亡率、人口統計、さまざまな健康統計および人口統計に関するデータへのアクセスを提供します。
  • CHDS: 小児の健康と発達の研究データセットは、病気と健康の世代間感染を調査することを目的としています。これには、ゲノム発現だけでなく、病気や健康に対する社会的、環境的、文化的要因の影響を研究するためのデータセットが含まれます。
  • メルク分子活性チャレンジ: さまざまな分子の組み合わせ間の潜在的な相互作用をシミュレートすることにより、創薬における機械学習の応用を促進するように設計されたデータセットを紹介します。
  • 1000ゲノムプロジェクト: 2,500 の異なる集団にわたる 26 人の個人からの配列データが含まれており、アクセス可能な最大のゲノム リポジトリの XNUMX つとなっています。この国際的なコラボレーションには AWS を通じてアクセスできます。 (ゲノムプロジェクトには助成金が利用可能であることに注意してください。)

ライフサイエンス、ヘルスケア、医療用の画像データセット:

  • オープンニューロ: 無料でオープンなプラットフォームとして、OpenNeuro は、MRI、MEG、EEG、iEEG、ECoG、ASL、PET データを含む幅広い医療画像を共有します。 563 人の参加者をカバーする 19,187 の医療データセットが含まれており、研究者や医療専門家にとって貴重なリソースとして機能します。
  • オアシス: Open Access Series of Imaging Studies (OASIS) に由来するこのデータセットは、科学コミュニティの利益のために、神経画像データを一般に無料で提供することを目指しています。これには、1,098 回の MR セッションと 2,168 回の PET セッションにわたる 1,608 人の被験者が含まれており、研究者に豊富な情報を提供します。
  • アルツハイマー病神経画像イニシアチブ: アルツハイマー病神経画像イニシアチブ (ADNI) は、アルツハイマー病の進行の定義に専念する世界中の研究者によって収集されたデータを紹介します。このデータセットには、MRI および PET 画像、遺伝情報、認知検査、CSF および血液バイオマーカーの包括的なコレクションが含まれており、この複雑な状態を理解するための多面的なアプローチを促進します。

病院データセット:

  • プロバイダーデータカタログ: 透析施設、医師の診療、在宅医療サービス、ホスピスケア、病院、入院リハビリテーション、長期療養病院、リハビリテーション サービス付きの老人ホーム、医師の診察費用、サプライヤー ディレクトリなどの分野の包括的なプロバイダー データセットにアクセスしてダウンロードします。
  • 医療費と利用プロジェクト (HCUP): この包括的な全国データベースは、医療の利用、アクセス、料金、品質、成果における全国的な傾向を特定、追跡、分析するために作成されました。 HCUP 内の各医療データセットには、米国の病院でのすべての患者の入院、救急外来受診、外来手術に関する遭遇レベルの情報が含まれており、研究者や政策立案者に豊富なデータを提供します。
  • MIMICクリティカルケアデータベース: 計算生理学を目的として MIT によって開発された、このオープンに利用可能な医療データセットは、40,000 人を超える救命救急患者からの匿名化された健康データで構成されています。 MIMIC データセットは、救命医療を研究し、新しい計算手法を開発する研究者にとって貴重なリソースとして機能します。

がんデータセット:

  • CT医療画像: CT 画像データの傾向を調べるための代替方法を容易にするように設計されたこのデータセットは、コントラスト、モダリティ、患者の年齢などの要素に焦点を当てたがん患者の CT スキャンを特徴としています。研究者はこのデータを活用して、新しいイメージング技術を開発し、がんの診断と治療のパターンを分析できます。
  • がん報告に関する国際協力 (ICCR)): ICCR 内の医療データセットは、世界中のがん報告に対する証拠に基づくアプローチを促進するために開発され、提供されています。 ICCR はがん報告を標準化することで、機関や国全体でのがんデータの質と比較可能性を向上させることを目指しています。
  • SEERがんの発生率: 米国政府によって提供されたこのがんデータは、人種、性別、年齢などの基本的な人口統計上の区別を使用してセグメント化されています。 SEER データセットを使用すると、研究者はさまざまな人口サブグループにわたるがんの発生率と生存率を調査でき、公衆衛生への取り組みや研究の優先順位を知ることができます。
  • 肺がんデータセット: この無料のデータセットには、1995 年に遡る肺がん症例に関する情報が含まれています。研究者はこのデータを使用して、肺がんの発生率、治療、転帰の長期傾向を研究したり、新しい診断および予後ツールを開発したりできます。

医療データに関する追加リソース:

  • Kaggle: 多用途のデータセット リポジトリ – Kaggle は、ヘルスケア分野に限定されない、幅広いデータセットのための優れたプラットフォームであり続けます。さまざまな主題に手を広げたり、モデルのトレーニングに多様なデータセットを必要としている人にとって、Kaggle は頼りになるリソースです。
  • 転記: コミュニティ主導の宝庫 – 適切なサブレディットのディスカッションは、オープン データセットの宝庫となる可能性があります。公開データセットでは対応されていないニッチなクエリや特定のクエリについては、Reddit コミュニティが答えを持っている可能性があります。

Shaip のすぐに使えるプレミアム医療データセットでヘルスケア AI プロジェクトを加速する

医師と患者の会話データセット

私たちのデータセットには、健康や治療計画に関する医師と患者の間の会話の音声ファイルが含まれています。ファイルは 31 の異なる医療専門分野をカバーしています。

何が含まれていますか?

  • 医療音声モデルをトレーニングするための 257,977 時間の実際の医師の口述音声
  • 電話、デジタルレコーダー、スピーチマイク、スマートフォンなどのさまざまなデバイスからの音声
  • プライバシー法に従って個人情報が削除された音声とトランスクリプト

CT SCAN画像データセット

当社は、研究および医療診断用に一流の CT スキャン画像データセットを提供しています。当社では、最新の技術を使用して処理された実際の患者からの高品質画像を数千枚保管しています。私たちのデータセットは、医師や研究者ががん、脳障害、心臓病などのさまざまな健康問題をより深く理解するのに役立ちます。

データによると、最も一般的な CT スキャンは胸部 (6000 件) と頭部 (4350 件) であり、腹部、骨盤、その他の身体部分に対してもかなりの数のスキャンが実行されています。この表は、CT、Covid HRCT、肺血管造影などの特定の特殊なスキャンが主にインド、アジア、ヨーロッパなどで実施されていることも明らかにしています。

電子医療記録 (EHR) データセット

電子医療記録 (EHR) は、患者の病歴のデジタル版です。これらには、診断、投薬、治療計画、予防接種日、アレルギー、医療画像 (CT スキャン、MRI、X 線など)、臨床検査などの情報が含まれます。

すぐに使用できる EHR データセットの特徴:

  • 5.1 の医療専門分野にわたる 31 万を超える記録と医師の音声ファイル
  • 臨床 NLP およびその他のドキュメント AI モデルのトレーニングに最適な本物の医療記録
  • メタデータには、匿名化された MRN、入院および退院日、入院期間、性別、患者クラス、支払者、財務クラス、状態、退院処分、年齢、DRG、DRG の説明、償還、AMLOS、GMLOS、死亡リスク、病気の重症度、ハタ、病院の郵便番号
  • すべての患者クラスをカバーする記録: 入院患者、外来患者 (臨床、リハビリテーション、定期治療、外科的デイケア)、救急患者
  • HIPAA セーフハーバー ガイドラインに準拠して、個人を特定できる情報 (PII) を含む文書は編集されています

MRI画像データセット

当社は、医学研究と診断をサポートするために、プレミアム MRI 画像データセットを提供します。当社の広範なコレクションには、実際の患者から撮影された何千もの高解像度画像が含まれており、すべて最先端の方法を使用して処理されています。当社のデータセットを利用することで、医療専門家や研究者は幅広い病状について理解を深めることができ、最終的には患者の転帰の向上につながります。

体のさまざまな部分の MRI 画像データセット。脊椎と脳のカウントがそれぞれ 5000 で最も高くなります。データはインド、中央アジアとヨーロッパ、中央アジア地域に分散されています。

X線画像データセット

研究および医療診断用の最高品質の X 線画像データセット。当社では、最新の技術を使用して処理された実際の患者からの高解像度画像を数千枚保管しています。 Shaip を使用すると、信頼できる医療データにアクセスして、研究と患者の転帰を改善できます。

X 線データセットは体のさまざまな部分に分布しており、中央アジアでは胸部の数が 1000 と最も多くなっています。下肢と上肢の合計数はそれぞれ 850 で、中央アジア地域と中央アジアおよびヨーロッパ地域に分布しています。

社会シェア