LLMにおけるトークン
トークンは、LLMがテキストを処理する基本単位です。英語では単語や単語の一部、日本語では文字、語、サブワードなどに分かれることがあります。モデルは人間が見る文章をそのまま処理するのではなく、トークナイザでトークン列に変換してから計算します。
正解の理由
選択肢1は、トークンをモデルが処理するテキスト単位であり、単語・文字・サブワードなどに分割されると説明しています。これはLLMの入力処理を正しく表しています。たとえば同じ文字数でも、言語や記号の使い方によってトークン数は変わります。
他の選択肢の評価
- 選択肢2はGPUの冷却部品という物理装置の説明で、LLMのトークンではありません。
- 選択肢3は法律名の説明です。著作権問題は生成AI利用で重要ですが、トークンの定義ではありません。
- 選択肢4はデータベースの行番号の説明です。トークンは自然言語処理上の分割単位です。
実務上の意味
- コンテキストウィンドウは、入力と出力を含めたトークン数で制限されます。
- API利用料金や処理時間はトークン数に影響されます。
- 長すぎる文書は分割、要約、検索による抽出が必要になることがあります。
G検定では、トークンを「文字数」と完全に同一視しないことが大切です。プロンプト設計では、必要な情報を残しつつ不要な冗長表現を減らすことが、コストと品質の両面で重要になります。
試験対策の確認
生成AI・LLMの論点では、便利さだけでなく、制約とリスクを同時に押さえることが重要です。プロンプト、RAG、ファインチューニング、トークン、コンテキスト、権利・機密情報の各用語は相互に関連します。実務では、モデルの出力をそのまま正解とみなさず、根拠確認、アクセス制御、ログ管理、人間によるレビューを組み合わせて安全に運用します。
追加の確認観点
生成AI・LLMの問題では、技術用語を単独で覚えるより、入力、検索、生成、検証、運用管理の流れに置いて理解することが重要です。トークンやコンテキストは制約、プロンプトは制御、RAGは外部知識の参照、ファインチューニングは振る舞いの調整、ガバナンスは安全な利用のための仕組みです。実務では、出力が自然でも根拠が正しいとは限らず、機密情報や著作権のリスクも残ります。G検定では、便利な応用例と同時に、限界、確認手順、人間のレビューが必要な場面を押さえてください。