CNN: 畳み込み層の出力サイズ計算の基礎
畳み込みニューラルネットワーク(CNN)において、畳み込み層は入力された特徴マップ(画像など)に対してフィルター(カーネル)を適用し、新たな特徴マップを出力します。このとき、出力される特徴マップの空間的なサイズ(高さと幅)は、いくつかの要因によって決定されます。
出力サイズに影響する要素
- 入力サイズ (W or H): 入力特徴マップの高さまたは幅。
- カーネルサイズ (K): 畳み込みに使用するフィルター(カーネル)の高さまたは幅。
- ストライド (S): フィルターを入力特徴マップ上でスライドさせる際の移動ステップ幅。
- パディング (P): 入力特徴マップの周囲に追加されるピクセル数(通常は0で埋められる)。パディングは、出力サイズを調整したり、入力の境界付近の情報をより活用したりするために用いられます。
出力サイズの計算式
出力サイズ(高さまたは幅) \(O\) は、上記の要素を用いて以下の一般式で計算できます。
$ O = \lfloor \frac{W - K + 2P}{S} \rfloor + 1
$
ここで、\(W\) は入力サイズ、\(K\) はカーネルサイズ、\(P\) はパディング、\(S\) はストライドです。\(\lfloor \cdot \rfloor\) は床関数(小数点以下切り捨て)を表します。この式は高さと幅の両方に適用できます。
今回の問題における計算 (高さ)
問題で与えられたパラメータは以下の通りです。
- 入力高さ (W): 32
- カーネル高さ (K): 3
- パディング (P): 0
- ストライド (S): 1
これらの値を上記の計算式に代入します。
$O_{height} = \lfloor \frac{32 - 3 + 2(0)}{1} \rfloor + 1 \\\
= \lfloor \frac{29 + 0}{1} \rfloor + 1 \\\
= \lfloor \frac{29}{1} \rfloor + 1 \\\
= \lfloor 29 \rfloor + 1 \\\
= 29 + 1 = 30
$
したがって、出力特徴マップの高さは 30 となります。幅についても同様に計算すると30になります。
パディングなしの場合の出力サイズ
- パディングがない(P=0)場合、畳み込み演算を行うごとに出力サイズは入力サイズよりも小さくなります(特にカーネルサイズが1より大きい場合)。
- ストライドが1の場合、出力サイズは `W - K + 1` となります。今回のケースでは `32 - 3 + 1 = 30` と一致します。
- 層を重ねるごとに特徴マップが小さくなりすぎると、空間的な情報が失われる可能性があるため、必要に応じてパディング(特にSame Padding)が用いられます。