青の統計学-DS Playground-

機械学習編

教師あり学習・教師なし学習・強化学習など機械学習に関する計算問題

Q学習の値更新 レベル2

強化学習のQ学習において、以下の情報が与えられています。\begin{array}{|l|c|}
\hline
\text{項目} & \text{値} \\
\hline
\text{現在の状態} & s = (1, 1) \\
\hline
\text{取った行動} & a = \text{「上に移動」} \\
\hline
\text{得られた報酬} & r = -0.1 \\
\hline
\text{遷移した次の状態} & s' = (1, 2) \\
\hline
\text{学習率} & \alpha = 0.1 \\
\hline
\text{割引率} & \gamma = 0.9 \\
\hline
\text{現在のQ値} & Q(s, a) = 0.5 \\
\hline
\text{次の状態s'で取りうる行動の中で最大のQ値} & \max_{a'} Q(s', a') = 1.0 \\
\hline
\end{array}Q学習の更新式に基づいて、更新後の$Q((1, 1), 上)$の値を計算しなさい。

解説
問題 3/10
カテゴリ一覧に戻る
問題検索