Transformerと位置情報
TransformerはSelf-Attentionにより、系列内の各トークンが他のトークンをどの程度参照するかを並列に計算します。しかし、Self-Attentionだけでは、入力の並び順そのものを直接区別できません。同じ単語集合でも順序が変われば意味が変わるため、位置情報をモデルへ与える必要があります。
正解の理由
選択肢1は、Self-Attentionだけでは単語の順序情報を直接持たないため位置エンコーディングが必要だと述べています。これはTransformerの重要論点です。位置エンコーディングをトークン埋め込みに加えることで、モデルは「何番目のトークンか」「相対的にどの位置関係にあるか」といった情報を利用できるようになります。
他の選択肢の評価
- 選択肢2は誤りです。位置エンコーディングは単語数を半分にする処理ではありません。
- 選択肢3も誤りです。Transformerの学習には損失関数が必要です。
- 選択肢4は画像チャネル処理の話であり、位置エンコーディングとは無関係です。
RNNとの比較
- RNNは時刻順に隠れ状態を更新するため、構造上、順序を扱いやすいです。
- Transformerは並列計算がしやすい一方、順序情報を別途加える必要があります。
- 位置情報には固定のsin/cos型、学習可能な位置埋め込み、相対位置表現などがあります。
実務では、長文処理やコード生成などで位置情報の扱いが品質に影響します。G検定では「Attentionは関係性、位置エンコーディングは順序」と分けて覚えてください。
試験対策の確認
ディープラーニングの問題では、層や関数の名前だけでなく、情報がどの向きに流れるか、どの量が学習されるか、どの量がハイパーパラメータかを区別することが重要です。実務では、活性化関数、出力層、損失関数、最適化手法、入力形状の組み合わせが崩れると学習や推論が成立しません。計算問題でも、式の各記号が何を表すかを確認しましょう。
追加の確認観点
選択肢を読む際は、層、活性化関数、損失関数、最適化、入力形状のどの要素を問われているかを切り分けてください。ディープラーニングでは、名称が似ていても役割が異なります。たとえばReLUは非線形性、Softmaxは多クラス確率、バックプロパゲーションは勾配計算、プーリングは空間サイズ縮小に関係します。実務では、形状計算や出力層の選択を誤ると学習が成立しません。G検定では、数式を丸暗記するだけでなく、どの問題を解くための部品かを説明できる状態を目標にしてください。