LLMにおけるトークン化

LLMにおけるトークン化

トークン化とは、テキストを単語、サブワード、文字などの小さな単位 (トークン) に分割し、言語モデルへの入力として使用するプロセスです。

目的

目的は、LLM でのトレーニングと推論のために、テキストを管理しやすいコンポーネントに標準化することです。

重要性

  • NLP における基本的な前処理手順。
  • 語彙のサイズと効率に影響します。
  • トークン化の選択は精度とパフォーマンスに影響します。
  • 埋め込みとモデルトレーニングに関連します。

仕組み

  1. トークン化スキーム(単語、サブワード、文字)を定義します。
  2. 入力テキストにトークナイザーを適用します。
  3. トークンを数値 ID にマップします。
  4. 処理のためにトークンをモデルに入力します。
  5. 出力トークンをテキストに戻します。

例(実世界)

  • GPT モデルで使用されるバイト ペア エンコーディング (BPE)。
  • BERT で使用される WordPiece。
  • 多言語 NLP で使用される SentencePiece。

参考文献 / さらに読む

  • Sennrichら「サブワード単位による希少単語のニューラル機械翻訳」ACL。
  • Google SentencePiece のドキュメント。
  • Jurafsky & Martin. 音声言語処理.

次のAIイニシアチブをどのように支援できるか教えてください。