問題:
強化学習のQ学習において、以下の情報が与えられています。\begin{array}{|l|c|} \hline \text{項目} & \text{値} \\ \hline \text{現在の状態} & s = (1, 1) \\ \hline \text{取った行動} & a = \text{「上に移動」} \\ \hline \text{得られた報酬} & r = -0.1 \\ \hline \text{遷移した次の状態} & s' = (1, 2) \\ \hline \text{学習率} & \alpha = 0.1 \\ \hline \text{割引率} & \gamma = 0.9 \\ \hline \text{現在のQ値} & Q(s, a) = 0.5 \\ \hline \text{次の状態s'で取りうる行動の中で最大のQ値} & \max_{a'} Q(s', a') = 1.0 \\ \hline \end{array}Q学習の更新式に基づいて、更新後の$Q((1, 1), 上)$の値を計算しなさい。
5秒後に問題演習ページにリダイレクトします。
今すぐ問題に挑戦