没有专项备案的网站,平面设计图网站有哪些?,中山 网站设计,班级优化大师的功能有哪些文章目录 两种机器学习类型强化学习定义强化学习交互过程强化学习系统要素历史(History)状态(State)策略(Policy)奖励(Reward)价值函数(Value Function)模型(Model)迷宫例子 强化学习智能体分类参考 两种机器学习类型 监督学习/无监督学习/强化学习/机器学习之间的关系 预测 根… 文章目录 两种机器学习类型强化学习定义强化学习交互过程强化学习系统要素历史(History)状态(State)策略(Policy)奖励(Reward)价值函数(Value Function)模型(Model)迷宫例子 强化学习智能体分类参考 两种机器学习类型 监督学习/无监督学习/强化学习/机器学习之间的关系 预测 根据数据预测所需输出(有监督学习) P ( y ∣ x ) P(y|x) P(y∣x)生成数据实例(无监督学习) P ( x , y ) P(x,y) P(x,y) 决策 在动态环境中采取行动(强化学习) 转变到新的状态获得即时奖励随着时间的推移最大化累计奖励
预测和决策的区别行动是否会使得环境发生改变。
强化学习与其他机器学习的区别
无监督只有奖励信号反馈延迟时间序列不同数据之间存在相关性或依赖关系(Non i.i.d data)agents的行动会影响到接受到的数据序列。 在强化学习中数据是在智能体与环境交互的过程中得到的。如果智能体不采取某个决策动作那么该动作对应的数据就永远无法被观测到所以当前智能体的训练数据来自之前智能体的决策结果。因此智能体的策略不同与环境交互所产生的数据分布就不同。 强化学习中有一个关于数据分布的概念叫作占用度量occupancy measure归一化的占用度量用于衡量在一个智能体决策与一个动态环境的交互过程中采样到一个具体的状态动作对state-action pair的概率分布。 占用度量有一个很重要的性质给定两个策略及其与一个动态环境交互得到的两个占用度量那么当且仅当这两个占用度量相同时这两个策略相同。也就是说如果一个智能体的策略有所改变那么它和环境交互得到的占用度量也会相应改变。 强化学习定义 强化学习用智能体agent这个概念来表示做决策的机器。相比于有监督学习中的“模型”强化学习中的“智能体”强调机器不但可以感知周围的环境信息还可以通过做决策来直接改变这个环境而不只是给出一些预测信号。 强化学习通过从交互学习中实现目标的计算方法
感知在某种程度上感知周围环境行动采取行动来影响状态或者达到目标目标随着时间的推移最大化奖励
强化学习交互过程 Agent的每一步 t t t:
获取观测 O t O_t Ot获得奖励 R t R_t Rt执行行动 A t A_t At
环境的每一步 t t t:
获得行动 A t A_t At给出观测 O t 1 O_{t1} Ot1给出奖励 R t 1 R_{t1} Rt1
在环境这一步 t t 1 tt1 tt1
强化学习系统要素
历史(History)
过去 O i , R i , A i O_i,R_i,A_i Oi,Ri,Ai的序列 H t O 1 , R 1 , A 1 , . . . , A t − 1 , O t , R t H_t O_1, R_1, A_1, ..., A_{t−1}, O_t, R_t HtO1,R1,A1,...,At−1,Ot,Rt
一直到 t t t时刻所有的可观测变量根据历史决定下一步(Agent A i A_i Ai; Env: O i 1 , R i 1 O_{i1},R_{i1} Oi1,Ri1)
状态(State)
用于确定接下来会发生的事情( O , R , A O,R,A O,R,A)
是一个关于历史的函数 S t f ( H t ) S_t f (H_t) Stf(Ht) f ( H t ) f(H_t) f(Ht)在部分情况下难以直接得到(POMDP)
策略(Policy)
智能体的行为从状态到动作的映射确定性策略(Deterministic policy): a π ( s ) a\pi(s) aπ(s)随机策略(Stochastic policy): π ( a ∣ s ) P [ A t a ∣ S t s ] π(a|s) \mathbb P[A_t a|S_t s] π(a∣s)P[Ata∣Sts]
奖励(Reward)
定义强化学习目标的标量评价状态好坏
价值函数(Value Function)
对于未来累计奖励的预测用于评估在给定的策略下状态的好坏 v π ( s ) E π [ R t 1 γ R t 2 γ 2 R t 3 . . . ∣ S t s ] v_\pi(s)\mathbb{E}_\pi\left[R_{t1}\gamma R_{t2}\gamma^2R_{t3}...\mid S_ts\right] vπ(s)Eπ[Rt1γRt2γ2Rt3...∣Sts]
模型(Model)
用于预测环境下一步会做什么预测下一步状态 P s s ′ a P [ S t 1 s ′ ∣ S t s , A t a ] \mathcal{P}_{ss^{\prime}}^a\mathbb{P}[S_{t1}s^{\prime}\mid S_ts,A_ta] Pss′aP[St1s′∣Sts,Ata]预测下一步的(即时)奖励 R s a E [ R t 1 ∣ S t s , A t a ] \mathcal{R}_s^a\mathbb{E}\left[R_{t1}\mid S_ts,A_ta\right] RsaE[Rt1∣Sts,Ata]
迷宫例子
找到最短路径
奖励 R R R: 每一步为-1动作 A A A: N, E, S, W状态 S S S: Agent的位置;箭头代表了每一步状态的策略 π ( s ) π(s) π(s);数字代表了每一步的价值 v π ( s ) v_\pi(s) vπ(s)距离Goal的格数;
强化学习智能体分类
基于模型的强化学习 策略(和/或)价值函数环境模型Example迷宫、围棋 模型无关的强化学习(通常情况下我们没法准确知道环境的模型) 策略(和/或)价值函数没有环境模型Atari Example
Atari Example
规则未知从交互中进行学习(环境是一个黑箱)在操作杆上选择行动并查看分数和像素画面 其他类型 基于价值 没有策略(隐含)价值函数 基于策略 策略没有价值函数 Actor-Critic 策略价值函数 各类型之间的关系 强化学习本质的思维方式 强化学习的策略在训练中会不断更新其对应的数据分布即占用度量也会相应地改变。因此强化学习的一大难点就在于智能体看到的数据分布是随着智能体的学习而不断发生改变的。 由于奖励建立在状态动作对之上一个策略对应的价值其实就是一个占用度量下对应的奖励的期望因此寻找最优策略对应着寻找最优占用度量。 强化学习关注寻找一个智能体策略使其在与动态环境交互的过程中产生最优的数据分布即最大化该分布下一个给定奖励函数的期望。 参考
[1] 伯禹AI [2] https://www.deepmind.com/learning-resources/introduction-to-reinforcement-learning-with-david-silver [3] 动手学强化学习