Transformer: Attentionスコアのスケーリング理由

カテゴリ: ディープラーニング編 問題 10/10 レベル: 1

問題:

TransformerのSelf-Attention機構で用いられるScaled Dot-Product Attentionでは、QueryベクトルとKeyベクトルの内積を \(\sqrt{d_k}\) (\(d_k\)はキーベクトルの次元数) で割るスケーリングを行います。このスケーリングを行う主な理由として、最も適切なものを選択してください。

選択肢:

5秒後に問題演習ページにリダイレクトします。

今すぐ問題に挑戦