畳み込み出力サイズの計算
畳み込み層の出力サイズは、入力サイズ、フィルタサイズ、パディング、ストライドで決まります。G検定では、画像処理やCNNの基礎として、この式を使った簡単な計算が出題されることがあります。1次元でも2次元でも、各方向について同じ考え方を使います。
正解の理由
1次元の出力サイズは次式で求められます。
$O=leftlfloor rac{W + 2P - K}{S}
ight
floor + 1$
ここで入力サイズ (W=28)、フィルタサイズ (K=3)、パディング (P=0)、ストライド (S=1) です。
$O=leftlfloor rac{28 + 2 imes0 - 3}{1}
ight
floor + 1=25+1=26$
したがって選択肢1の26が正解です。
他の選択肢の評価
- 選択肢2の28は、出力サイズを入力サイズと同じと考えた誤りです。同じにしたい場合は適切なパディングが必要です。
- 選択肢3の30は、パディングを追加したかのような値ですが、問題ではパディング0です。
- 選択肢4の25は、最後の「+1」を忘れた値です。フィルタを置ける開始位置の数を数えるため、+1が必要です。
覚えるべき実務上の意味
- パディングを増やすと出力サイズを保ちやすくなります。
- ストライドを大きくすると出力サイズは小さくなります。
- 出力サイズの設計を誤ると、後続層の入力次元が合わなくなります。
CNNでは計算式だけでなく、パディングとストライドが特徴マップの解像度を制御する点も重要です。
追加の確認観点
選択肢を読む際は、層、活性化関数、損失関数、最適化、入力形状のどの要素を問われているかを切り分けてください。ディープラーニングでは、名称が似ていても役割が異なります。たとえばReLUは非線形性、Softmaxは多クラス確率、バックプロパゲーションは勾配計算、プーリングは空間サイズ縮小に関係します。実務では、形状計算や出力層の選択を誤ると学習が成立しません。G検定では、数式を丸暗記するだけでなく、どの問題を解くための部品かを説明できる状態を目標にしてください。