Adamの特徴
Adam(Adaptive Moment Estimation)は、勾配の移動平均である一次モーメントと、勾配二乗の移動平均である二次モーメントを利用し、パラメータごとに更新量を調整する最適化手法です。正解は「過去の勾配の一次モーメントと二次モーメントを利用して更新量を調整する」です。 (選択肢1が正しい)
正解の理由
Adam(Adaptive Moment Estimation)は、勾配の移動平均である一次モーメントと、勾配二乗の移動平均である二次モーメントを利用し、パラメータごとに更新量を調整する最適化手法です。正解は「過去の勾配の一次モーメントと二次モーメントを利用して更新量を調整する」です。
仕組み・頻出ポイント
- Momentumのように更新方向を滑らかにする効果と、RMSpropのようにパラメータごとの学習率を調整する考え方を併せ持ちます。
- 深層学習で広く使われる初期選択肢の一つですが、常に最良とは限らずタスクに応じた調整が必要です。
- 学習率、β1、β2、ε などのハイパーパラメータを持ちます。
G検定で覚えるべきこと
Adamは「モデル」や「活性化関数」ではなく、パラメータ更新のための最適化アルゴリズムです。G検定では、SGD、Momentum、AdaGrad、RMSprop、Adamの違いが概念レベルで問われます。特にAdamは一次モーメントと二次モーメントの両方を使う、というフレーズを覚えてください。
他の選択肢の評価
- 選択肢1: 正解です。一次・二次モーメントを使う点がAdamの代表的特徴です。
- 選択肢2: 全探索ではなく、勾配情報に基づく反復的な最適化手法です。
- 選択肢3: 活性化関数ではありません。ReLUやSigmoidとは分類が異なります。
- 選択肢4: 教師あり・教師なしを問わず、勾配で学習するモデルに利用されます。クラスタリング手法ではありません。
実務での見方
実務では、Adamは初期設定で扱いやすい一方、タスクによってはSGDやMomentumの方が汎化性能で有利な場合もあります。最適化手法は万能ではなく、学習率スケジューリング、正則化、バッチサイズと合わせて調整します。G検定では名称と役割の対応を確実に押さえます。
確認観点
確認観点としては、Adamが活性化関数でもモデル名でもなく、勾配に基づく最適化手法である点です。一次モーメントは勾配の平均、二次モーメントは勾配二乗の平均と整理します。
結論として、この問題では「用語の定義」だけでなく、どの前提で使えるのか、どの誤解を避けるべきか、実務では何を確認するのかまで結びつけて理解することが重要です。