ミニバッチ学習の考え方
ミニバッチ学習は、学習データ全体を一度に使うのではなく、一定件数の小さなまとまりごとに勾配を計算し、パラメータを更新する方法です。全データを使うバッチ学習と、1件ずつ更新するオンライン学習または確率的勾配降下法の中間に位置します。深層学習では、計算効率、メモリ制約、学習の安定性のバランスが良いため広く使われます。
正解の理由
選択肢1のデータの一部のまとまりごとにパラメータを更新するが正解です。ミニバッチサイズが32や64などに設定されることが多く、各ミニバッチで損失と勾配を計算して重みを少しずつ更新します。これにより、全データを毎回処理するより高速で、1件ずつ更新するより勾配のばらつきを抑えやすくなります。
G検定で押さえるポイント
- バッチ学習は全データで1回の更新、オンライン学習は1件ごと、ミニバッチ学習は複数件ごとの更新です。
- エポックは学習データ全体を一通り使う単位で、ミニバッチ更新は1エポック内で複数回発生します。
- ミニバッチサイズはGPUメモリ、収束速度、汎化性能に影響するハイパーパラメータです。
混同しやすい論点
- テストデータはモデル評価に使うもので、学習には使いません。
- 学習データを使わずランダムにパラメータを決めるだけでは、データに基づく学習になりません。
- 特徴量を削除する処理は特徴選択や前処理の論点で、ミニバッチ学習とは別です。
他の選択肢の評価
- 選択肢1が正解です。データの一部のまとまりごとに更新するのがミニバッチ学習です。
- 選択肢2は誤りです。学習データを使わなければ教師あり学習や通常の最適化はできません。
- 選択肢3は特徴量削除の話で、ミニバッチ学習ではありません。
- 選択肢4は誤りです。テストデータは学習後の評価に使うため、学習に使うと情報漏洩になります。
実務上の意味
実務では、データが大きくなるほど全データを一度にメモリへ載せることは難しくなります。ミニバッチ学習を使うことで、GPUを効率よく使いながら大規模データで学習できます。ただし、バッチサイズが大きすぎるとメモリ不足や汎化性能の低下、小さすぎると学習が不安定になる場合があります。
G検定では、用語の丸暗記だけでなく「どの場面で使う概念か」「何と対比されるか」まで問われやすいです。正答を選んだ後に、誤答がなぜ成り立たないかを説明できる状態にしておくと、文章表現を変えた問題にも対応しやすくなります。G検定対策では、正解語だけでなく、反対概念、代表例、限界、現在の実務での使われ方を一緒に説明できる粒度まで確認しておくと安定します。また、問題文の時代背景や技術名を手がかりに、どのAIブーム・どの学習方式・どの限界の話かを切り分けてください。