名前付きエンティティ認識 (NER) は、人物、組織、場所、日付、製品など、テキスト内のエンティティを識別して分類する NLP タスクです。
目的
主要なエンティティを抽出し、非構造化テキストを構造化することを目的としています。検索、情報抽出、ナレッジグラフ構築をサポートします。
重要性
- 情報検索と NLP パイプラインの基礎。
- エラーは下流のアプリケーションに伝播します。
- ドメイン固有の NER (例: 医療、法律) にはカスタム データセットが必要です。
- エンティティ リンクや関係抽出などのタスクに関連します。
仕組み
- テキストを収集して前処理します。
- エンティティ カテゴリを使用してデータセットに注釈を付けます。
- ラベル付けされた例 (CRF、トランスフォーマー) でモデルをトレーニングします。
- 見たことのないテキスト内のエンティティを予測します。
- テストデータで精度を検証します。
例(実世界)
- spaCy: NER が組み込まれたオープンソースの NLP ライブラリ。
- Stanford CoreNLP: 名前付きエンティティ認識ツールを提供します。
- 金融 NLP: レポートから企業名を抽出します。
参考文献 / さらに読む
- Jurafsky & Martin. 音声言語処理. スタンフォード.
- Lampleら「名前付きエンティティ認識のためのニューラルアーキテクチャ」ACL。
- ハギングフェイストランスフォーマーNERモデル。
- 固有表現抽出(NER)とは