青の統計学-DS Playground-

ディープラーニング編

ニューラルネットワーク、CNN、RNN、Transformer、活性化関数、最適化手法に関する計算問題

Transformer: Attentionスコアのスケーリング理由 レベル1

TransformerのSelf-Attention機構で用いられるScaled Dot-Product Attentionでは、QueryベクトルとKeyベクトルの内積を \(\sqrt{d_k}\) (\(d_k\)はキーベクトルの次元数) で割るスケーリングを行います。このスケーリングを行う主な理由として、最も適切なものを選択してください。

解説
問題 10/10
カテゴリ一覧に戻る
問題検索