勾配消失問題の概要
勾配消失問題は、誤差逆伝播で入力側の層に進むほど勾配が非常に小さくなり、初期層の重みがほとんど更新されなくなる問題です。深いニューラルネットワークや単純なRNNで典型的に議論されます。学習が進まない、長期依存を学べない、といった現象につながります。
正解の理由
選択肢1は、入力側の層に伝わる勾配が小さくなり学習が進みにくくなると説明しており、勾配消失問題の定義に合っています。Sigmoidやtanhのように飽和領域で微分が小さくなる活性化関数を深く重ねると、連鎖律により小さな値が何度も掛け合わされ、勾配がほぼ0になることがあります。
他の選択肢の評価
- 選択肢2はデータファイルが消えるという物理的・運用的な問題で、勾配とは関係ありません。
- 選択肢3はバッチサイズに関する説明です。バッチサイズが必ず1になる現象ではありません。
- 選択肢4は出力層のクラス数に関する説明で、勾配消失とは無関係です。
対策として覚えるもの
- ReLU系活性化関数を使う。
- 適切な重み初期化を行う。
- Batch Normalizationなどの正規化を利用する。
- ResNetのような残差接続を使う。
- RNNではLSTMやGRUのゲート機構を使う。
勾配爆発は逆に勾配が大きくなりすぎる問題です。両者は名前が似ていますが、対策や症状を区別して理解しましょう。
試験対策の確認
ディープラーニングの問題では、層や関数の名前だけでなく、情報がどの向きに流れるか、どの量が学習されるか、どの量がハイパーパラメータかを区別することが重要です。実務では、活性化関数、出力層、損失関数、最適化手法、入力形状の組み合わせが崩れると学習や推論が成立しません。計算問題でも、式の各記号が何を表すかを確認しましょう。
追加の確認観点
選択肢を読む際は、層、活性化関数、損失関数、最適化、入力形状のどの要素を問われているかを切り分けてください。ディープラーニングでは、名称が似ていても役割が異なります。たとえばReLUは非線形性、Softmaxは多クラス確率、バックプロパゲーションは勾配計算、プーリングは空間サイズ縮小に関係します。実務では、形状計算や出力層の選択を誤ると学習が成立しません。G検定では、数式を丸暗記するだけでなく、どの問題を解くための部品かを説明できる状態を目標にしてください。