企业培训资讯_企业培训干货

当前位置:首页 > 新闻中心

人工智能之TDLearning算法

发布时间:2021-06-30    来源:亚博app安全有保障47076

本文摘要:人工智能机器学习有关算法内容,请求参看公众号“科技优化生活”之前涉及文章。

人工智能机器学习有关算法内容,请求参看公众号“科技优化生活”之前涉及文章。人工智能之机器学习主要有三大类:1)分类;2)重返;3)聚类。今天我们重点探究一下TDLearning算法。^_^TDLearning时序差分自学融合了动态规划DP和蒙特卡洛MC(请求参看人工智能(31))方法,且兼备两种算法的优点,是增强自学的核心思想。

虽然蒙特卡罗MC方法仅有在最后结果未知时才调整其估计值,但TDLearning时序差分自学调整预测以给定后,更加精确地预测最后结果之前的未来预测。TDLearning算法概念:TDLearning(Temporal-DifferenceLearning)时序差分自学所指的是一类无模型的增强自学方法,它就是指当前价值函数估算的自举过程中自学的。这些方法从环境中采样,如蒙特卡洛方法,并基于当前估算继续执行改版,如动态规划方法。TDLearning算法本质:TDLearning(Temporal-DifferenceLearning)时序差分自学融合了动态规划和蒙特卡洛方法,是增强自学的核心思想。

亚博app安全有保障

时序差分很差解读。改回当时差分自学较为形象一些,回应通过当前的差分数据来自学。蒙特卡洛MC方法是仿真(或者经历)一段序列或情节,在序列或情节完结后,根据序列或情节上各个状态的价值,来估算状态价值。TDLearning时序差分自学是仿真(或者经历)一段序列或情节,每行动一步(或者几步),根据新的状态的价值,然后估算继续执行前的状态价值。

亚博app安全有保障

可以指出蒙特卡洛MC方法是仅次于步数的TDLearning时序差分自学。TDLearning算法叙述:如果可以计算出来出有策略价值(π状态价值vπ(s),或者行动价值qπ(s,a)),就可以优化策略。在蒙特卡洛方法中,计算出来策略的价值,必须已完成一个情节,通过情节的目标价值Gt来计算出来状态的价值。

其公式:MC公式:V(St)←V(St)+αδtδt=[Gt?V(St)]这里:δt–MC误差α–MC自学步长TDLearning公式:V(St)←V(St)+αδtδt=[Rt+1+γV(St+1)?V(St)]这里:δt–TDLearning误差α–TDLearning步长γ–TDLearning报酬贴现率TDLearning时间差分方法的目标为Rt+1+γV(St+1),若V(St+1)使用现实值,则TDLearning时间差分方法估算也是估计量估算,然而在试验中V(St+1)用的也是估计值,因此TDLearning时间差分方法归属于有稍估算。然而,跟蒙特卡罗MC方法比起,TDLearning时间差分方法要用到了一步随机状态和动作,因此TDLearning时间差分方法目标的随机性比蒙特卡罗MC方法中的Gt要小,因此其方差也比蒙特卡罗MC方法的方差小。TDLearning分类:1)策略状态价值vπ的时序差分自学方法(单步多步)2)策略行动价值qπ的on-policy时序差分自学方法:Sarsa(单步多步)3)策略行动价值qπ的off-policy时序差分自学方法:Q-learning(单步),DoubleQ-learning(单步)4)策略行动价值qπ的off-policy时序差分自学方法(带上importancesampling):Sarsa(多步)5)策略行动价值qπ的off-policy时序差分自学方法(不带上importancesampling):TreeBackupAlgorithm(多步)6)策略行动价值qπ的off-policy时序差分自学方法:Q(σ)(多步)TDLearning算法流程:1)单步TDLearning时序差分自学方法:InitializeV(s)arbitrarily?s∈S+Repeat(foreachepisode):?InitializeS?Repeat(foreachstepofepisode):??A←actiongivenbyπforS??TakeactionA,observeR,S′??V(S)←V(S)+α[R+γV(S′)?V(S)]??S←S′?UntilSisterminal2)多步TDLearning时序差分自学方法:Input:thepolicyπtobeevaluatedInitializeV(s)arbitrarily?s∈SParameters:stepsizeα∈(0,1],apositiveintegernAllstoreandaccessoperations(forStandRt)cantaketheirindexmodnRepeat(foreachepisode):?InitializeandstoreS0≠terminal?T←∞?Fort=0,1,2,?:??Ift<Tt<T,then:???Takeanactionaccordingtoπ(˙|St)???ObserveandstorethenextrewardasRt+1andthenextstateasSt+1???IfSt+1isterminal,thenT←t+1??τ←t?n+1(τisthetimewhosestate'sestimateisbeingupdated)??Ifτ≥0τ≥0:???G←∑min(τ+n,T)i=τ+1γi?τ?1Ri???ifτ+n≤Tτ+n≤Tthen:G←G+γnV(Sτ+n)(G(n)τ)???V(Sτ)←V(Sτ)+α[G?V(Sτ)]?Untilτ=T?1留意:V(S0)是由V(S0),V(S1),…,V(Sn)计算出来扣除;V(S1)是由V(S1),V(S1),…,V(Sn+1)计算出来扣除。

TDLearning理论基础:TDLearning理论基础如下:1)蒙特卡罗方法2)动态规划3)信号系统TDLearning算法优点:1)不必须环境的模型;2)可以使用在线的、几乎增量式的构建方式;3)不须要等到最后的现实结果;4)不局限于episodetask;5)可以用作倒数任务;6)可以确保发散到vπ,发散速度较慢。TDLearning算法缺点:1)对初始值较为脆弱;2)并非总是用函数迫近。TDLearning算法应用于:从应用于看作,TDLearning应用领域与应用于前景都是非常广阔的,目前主要应用于动态系统、机器人掌控及其他必须展开系统控制的领域。

结语:TDLearning是融合了动态规划DP和蒙特卡洛MC方法,并兼备两种算法的优点,是增强自学的中心。TDLearning不必须环境的动态模型,必要从经验经历中自学;也不必须等到最后的结果才改版模型,它可以基于其他估计值来改版估计值。输出数据可以性刺激模型并且使模型作出反应。

亚博app安全有保障

对系统不仅从监督自学的自学过程中获得,还从环境中的奖励或惩罚中获得。TDLearning算法早已被普遍应用于动态系统、机器人掌控及其他必须展开系统控制的领域。


本文关键词:亚博app安全有保障

本文来源:亚博app安全有保障-www.dgesqc.com

分享到:
亚博app安全有保障:奇迹暖暖雪夜的祝福套装 2017圣诞套装图鉴 
曾穷到停播却季季获高分 国综《非正式谈判》为何如此圈粉:亚博app安全有保障
热门文章
【亚博app安全有保障】自由之战2钻石怎么得 如何获得钻石攻略详解
方舟生存进化推广码怎么用 手游方舟激活码使用方法【亚博app安全有保障】
天涯明月刀手游太白连招 太白连招高玩推荐_亚博app安全有保障
谷歌与苹果 移动大战方兴未艾【亚博app安全有保障】
亚博app安全有保障:李嘉诚 将有新移动操作系统崛起
亚博app安全有保障_乐高无限石器时代怎么玩 怎么复活恐龙
和平精英特种作战攻略爽刚枪,冲锋陷阵突击兵-亚博app安全有保障
【亚博app安全有保障】在区块链上运行程序,到底是啥意思?DAPP到底是什么?
亚博app安全有保障_中国CPU芯片将实现弯道超车,中科院表示国产2nm芯片有望破冰
螺旋境界线巴巴柳丝怎么样 巴巴柳丝属性技能资料图鉴_亚博app安全有保障
亚博app安全有保障:魂斗罗归来枪魂有什么用 魂斗罗归来枪魂系统解析
王者荣耀台服卢蜜亚攻略汇总 传说对决卢蜜亚出装加点团战技巧视频全攻略_亚博app安全有保障
亚博app安全有保障:参展快递浙江爱雪制冷电器质量求生存
亚博app安全有保障-疑似苹果iPhone SE2手机最新渲染图曝光
【亚博app安全有保障】Neo如何抵御“日蚀攻击”?
客户案例
×