テキスト データ収集とは、AI トレーニングで使用するために、書籍、Web サイト、チャット ログなどのソースから書き言葉を集めるプロセスです。
目的
目的は、NLP および LLM 開発のためのコーパスを作成することです。
重要性
- 言語モデルの原材料を提供します。
- 著作権とライセンスの問題が発生します。
- データの多様性は公平性と正確性に影響します。
- 有害または無関係なコンテンツをフィルタリングする必要があります。
仕組み
- テキスト ソース (Web、ドキュメント、トランスクリプト) を識別します。
- 許可を得てテキストをクロールまたはスクレイピングします。
- コンテンツをクリーンアップして正規化します。
- 追跡可能性のためにメタデータとともに保存します。
- 事前トレーニングまたは微調整に使用します。
例(実世界)
- Common Crawl: 大規模な Web コーパス。
- Wikipedia ダンプ: 構造化テキスト データセット。
- BooksCorpus: BERT のトレーニングに使用されます。
参考文献 / さらに読む
- 一般的なクロールの基礎。
- Jurafsky & Martin. 音声言語処理.
- ISO/IEC TR 20547-5: ビッグデータ参照アーキテクチャ。
- ケース固有のテキストデータ収集