トークン化とは、テキストを単語、サブワード、文字などの小さな単位 (トークン) に分割し、言語モデルへの入力として使用するプロセスです。
目的
目的は、LLM でのトレーニングと推論のために、テキストを管理しやすいコンポーネントに標準化することです。
重要性
- NLP における基本的な前処理手順。
- 語彙のサイズと効率に影響します。
- トークン化の選択は精度とパフォーマンスに影響します。
- 埋め込みとモデルトレーニングに関連します。
仕組み
- トークン化スキーム(単語、サブワード、文字)を定義します。
- 入力テキストにトークナイザーを適用します。
- トークンを数値 ID にマップします。
- 処理のためにトークンをモデルに入力します。
- 出力トークンをテキストに戻します。
例(実世界)
- GPT モデルで使用されるバイト ペア エンコーディング (BPE)。
- BERT で使用される WordPiece。
- 多言語 NLP で使用される SentencePiece。
参考文献 / さらに読む
- Sennrichら「サブワード単位による希少単語のニューラル機械翻訳」ACL。
- Google SentencePiece のドキュメント。
- Jurafsky & Martin. 音声言語処理.