成华区建设局门户网站,西安网页公司,wordpress 昵称留链接,苏州电商网站开发上一章介绍了 Q 学习的表格形式和神经网络形式#xff08;即 DQN#xff09;。 TD 算法是一大类算法的总称。上一章用的 Q 学习是一种 TD 算法#xff0c; Q 学习的目的是学习最优动作价值函数 Q ⋆ Q_⋆ Q⋆ 本章介绍 SARSA#xff0c;它也是一种 TD 算法#xff0c; S…上一章介绍了 Q 学习的表格形式和神经网络形式即 DQN。 TD 算法是一大类算法的总称。上一章用的 Q 学习是一种 TD 算法 Q 学习的目的是学习最优动作价值函数 Q ⋆ Q_⋆ Q⋆ 本章介绍 SARSA它也是一种 TD 算法 SARSA 的目的是学习动作价值函数 Q π ( s , a ) Q_π(s,a) Qπ(s,a)。
5.1表格形式的SARSA 5.1.1推导表格形式的 SARSA 学习算法
5.2神经网络形式的SARSA
5.3多步TD目标
5.4蒙特卡洛与自举