テキスト認識とは、画像やスキャンした文書内のテキスト文字を識別することを指します。これには、印刷文字と手書き文字の認識が含まれます。
目的
目的は、視覚的な形式のテキストをアクセス可能かつ検索可能にすることです。
重要性
- アーカイブのデジタル化を可能にします。
- アクセシビリティと自動化に重要です。
- 精度は画質に依存します。
- OCR テクノロジに関連します。
仕組み
- スキャンまたは撮影した文書をキャプチャします。
- 鮮明さを向上させるために画像を前処理します。
- テキスト領域を検出します。
- 認識モデルを適用します。
- 機械が読み取り可能なテキストを出力します。
例(実世界)
- Google レンズ: 写真内のテキストを認識します。
- ABBYY FineReader: スキャンした文書をデジタル化します。
- Tesseract OCR: オープンソースのテキスト認識エンジン。
参考文献 / さらに読む
- Smith, R.「Tesseract OCRエンジンの概要」ICDAR。
- ISO/IEC 15938-4 規格。
- IEEE パターン分析および機械知能トランザクション。