最急降下法によるパラメータ更新 (単一パラメータ) - 問題演習問題1

最急降下法によるパラメータ更新 (単一パラメータ) レベル1

損失関数 $L(w) = w^2 - 4w + 5$ があります。現在のパラメータ値が $w = 3$ で、学習率 $\eta = 0.1$の場合、最急降下法による1ステップ後のパラメータ $w$ の値を計算してください。

解説

解答と解説を表示

<h4>最急降下法によるパラメータ更新</h4> <p>最急降下法（Gradient Descent）は、損失関数の値を最小化するようにパラメータを反復的に更新するための基本的な最適化アルゴリズムです。パラメータの更新は、損失関数の勾配（最も急な下り坂の方向）の<strong>逆方向</strong>に、学習率というステップ幅で進みます。</p><h5>更新ステップの基本式</h5> <p>パラメータ $w$ の更新は以下の式で行われます。</p> <div class="formula"> $w_{new} = w_{old} - \eta \nabla L(w_{old})$ </div> <p>ここで、</p> <ul> <li>$w_{old}$: 更新前のパラメータ値</li> <li>$w_{new}$: 更新後のパラメータ値</li> <li>$\eta$: 学習率（ステップサイズを制御するハイパーパラメータ）</li> <li>$\nabla L(w_{old})$: 現在のパラメータ値 $w_{old}$ における損失関数 $L$ の勾配（単一パラメータの場合は微分値 $\frac{dL}{dw}\big|_{w=w_{old}}$)</li> </ul><h5>今回の問題における計算</h5> <p>与えられた損失関数は $L(w) = w^2 - 4w + 5$ です。</p><h6>ステップ1: 勾配の計算</h6> <p>損失関数 $L(w)$ を $w$ で微分します。</p> <div class="formula"> $\frac{dL}{dw} = \frac{d}{dw}(w^2 - 4w + 5) = 2w - 4$ </div> <p>現在のパラメータ値 $w_{old} = 3$ における勾配を計算します。</p> <div class="formula"> $\nabla L(w_{old}) = \frac{dL}{dw}\bigg|_{w=3} = 2(3) - 4 = 6 - 4 = 2$ </div><h6>ステップ2: パラメータの更新</h6> <p>更新式に、現在のパラメータ $w_{old} = 3$、学習率 $\eta = 0.1$、計算した勾配 $2$ を代入します。</p> <div class="formula"> $ w_{new} = w_{old} - \eta \nabla L(w_{old}) = 3 - 0.1 \times 2 = 3 - 0.2 = 2.8$ </div><p>したがって、最急降下法による1ステップ後のパラメータ値は <strong>2.8</strong> です。</p><div class="key-point"> <div class="key-point-title">最急降下法のポイント</div> <ul> <li><strong>学習率 ($\eta$):</strong> 更新のステップ幅を制御します。大きすぎると最適解を通り過ぎて発散したり、小さすぎると収束が非常に遅くなったりします。適切な設定が重要です。</li> <li><strong>損失関数の形状:</strong> この損失関数 $L(w) = (w-2)^2 + 1$ は、$w=2$ を頂点とする下に凸の放物線です。勾配は頂点に向かう方向を示し、最急降下法はその逆方向に進むことで損失を最小化します。</li> <li><strong>局所最適解:</strong> 損失関数が非凸（複数の谷を持つ）の場合、最急降下法は必ずしも大域的最適解（最も低い谷）に収束するとは限らず、初期値に近い局所最適解（近くの谷底）に陥る可能性があります。</li> <li><strong>バリエーション:</strong> 計算効率や収束性を改善するために、確率的勾配降下法 (SGD)、ミニバッチ勾配降下法、Momentum、AdaGrad、RMSprop、Adamなど、様々な派生アルゴリズムが存在します。</li> </ul> </div>

アルゴリズム編