構造化データ

構造化データ

構造化データとは、表、データベース、スプレッドシートなどの定義済みの形式で整理された情報を指します。これは、フリーテキストや画像などの非構造化データとは対照的です。

目的

情報の効率的な保存、検索、分析を可能にすることが目的です。構造化データは、データサイエンスとAIシステムの基盤となります。

重要性

  • 簡単に検索でき、機械で読み取り可能です。
  • 教師あり学習に信頼できる入力を提供します。
  • 複雑な現実世界の変動を捉えるには限界があります。
  • 多くの場合、より豊富なモデルを実現するために非構造化データと組み合わせられます。

仕組み

  1. センサー、トランザクション、またはログからデータを収集します。
  2. 定義されたスキーマを使用して行と列に整理します。
  3. リレーショナル データベースまたは NoSQL データベースに保存します。
  4. SQL または API を使用してクエリを実行します。
  5. 分析または ML モデルの入力として使用します。

例(実世界)

  • 構造化されたデータベースに保存された銀行取引。
  • 構造化された EHR 形式の病院記録。
  • 電子商取引の製品カタログ。

参考文献 / さらに読む

  • ISO/IEC 11179: メタデータ レジストリ。
  • NIST ビッグデータ相互運用性フレームワーク。
  • Kimball & Ross. データ ウェアハウス ツールキット。
  • 構造化データと非構造化データ:

次のAIイニシアチブをどのように支援できるか教えてください。