問題:
TransformerのSelf-Attention機構で用いられるScaled Dot-Product Attentionでは、QueryベクトルとKeyベクトルの内積を \(\sqrt{d_k}\) (\(d_k\)はキーベクトルの次元数) で割るスケーリングを行います。このスケーリングを行う主な理由として、最も適切なものを選択してください。
選択肢:
5秒後に問題演習ページにリダイレクトします。
JavaScript が無効です。こちらから問題ページにアクセスしてください。