解答と解説を表示
<h4>最急降下法によるパラメータ更新</h4>
<p>最急降下法(Gradient Descent)は、損失関数の値を最小化するようにパラメータを反復的に更新するための基本的な最適化アルゴリズムです。パラメータの更新は、損失関数の勾配(最も急な下り坂の方向)の<strong>逆方向</strong>に、学習率というステップ幅で進みます。</p><h5>更新ステップの基本式</h5>
<p>パラメータ \(w\) の更新は以下の式で行われます。</p>
<div class="formula">
$w_{new} = w_{old} - \eta \nabla L(w_{old})$
</div>
<p>ここで、</p>
<ul>
<li>\(w_{old}\): 更新前のパラメータ値</li>
<li>\(w_{new}\): 更新後のパラメータ値</li>
<li>\(\eta\): 学習率(ステップサイズを制御するハイパーパラメータ)</li>
<li>\(\nabla L(w_{old})\): 現在のパラメータ値 \(w_{old}\) における損失関数 \(L\) の勾配(単一パラメータの場合は微分値 \(\frac{dL}{dw}\big|_{w=w_{old}}\))</li>
</ul><h5>今回の問題における計算</h5>
<p>与えられた損失関数は \(L(w) = w^2 - 4w + 5\) です。</p><h6>ステップ1: 勾配の計算</h6>
<p>損失関数 \(L(w)\) を \(w\) で微分します。</p>
<div class="formula">
$\frac{dL}{dw} = \frac{d}{dw}(w^2 - 4w + 5) = 2w - 4$
</div>
<p>現在のパラメータ値 \(w_{old} = 3\) における勾配を計算します。</p>
<div class="formula">
$\nabla L(w_{old}) = \frac{dL}{dw}\bigg|_{w=3} = 2(3) - 4 = 6 - 4 = 2$
</div><h6>ステップ2: パラメータの更新</h6>
<p>更新式に、現在のパラメータ \(w_{old} = 3\)、学習率 \(\eta = 0.1\)、計算した勾配 \(2\) を代入します。</p>
<div class="formula">
$ w_{new} = w_{old} - \eta \nabla L(w_{old})
= 3 - 0.1 \times 2
= 3 - 0.2
= 2.8$
</div><p>したがって、最急降下法による1ステップ後のパラメータ値は <strong>2.8</strong> です。</p><div class="key-point">
<div class="key-point-title">最急降下法のポイント</div>
<ul>
<li><strong>学習率 (\(\eta\)):</strong> 更新のステップ幅を制御します。大きすぎると最適解を通り過ぎて発散したり、小さすぎると収束が非常に遅くなったりします。適切な設定が重要です。</li>
<li><strong>損失関数の形状:</strong> この損失関数 \(L(w) = (w-2)^2 + 1\) は、\(w=2\) を頂点とする下に凸の放物線です。勾配は頂点に向かう方向を示し、最急降下法はその逆方向に進むことで損失を最小化します。</li>
<li><strong>局所最適解:</strong> 損失関数が非凸(複数の谷を持つ)の場合、最急降下法は必ずしも大域的最適解(最も低い谷)に収束するとは限らず、初期値に近い局所最適解(近くの谷底)に陥る可能性があります。</li>
<li><strong>バリエーション:</strong> 計算効率や収束性を改善するために、確率的勾配降下法 (SGD)、ミニバッチ勾配降下法、Momentum、AdaGrad、RMSprop、Adamなど、様々な派生アルゴリズムが存在します。</li>
</ul>
</div>