,";亚利桑那州立大学报告9月。2020年;将在IEEE/CAA“自动化学报”上发表。,arxiv预印本,arxiv:2005.01627,2020年4月。,";arxiv预印本arxiv:1910.00120,2019年9月(修订于2020年4月)。,arxiv预印本,arxiv:2002.07407,2020年2月。Bhattacharya,S.,BadYal,S.,Wheeler,W.,Gil,S.,Bertsekas,D.,&34;POMDP的强化学习:分区推出和策略迭代及其在自治顺序修复问题中的应用。
IEEE Robotics and Automation Letters,第5卷,第3967-3974页,2020。,#34;实验室。信息和决策系统报告,麻省理工学院,2018年10月;较短的版本显示为arxiv预印本arxiv:1910.02426,2019年10月。D.P.Bertsekas,基于特征的聚集和深度强化学习:综述和一些新的实现。
,#34;实验室。信息与决策系统报告,麻省理工学院,2018年4月(2018年8月修订);arxiv预印本arxiv:1804.04577;一个版本发表在IEEE/CAA自动化学报上。(讲座幻灯片)。(相关视频讲座)。分布式强化学习、推出和近似策略迭代第四版(2017年2月)包含大量新材料,特别是关于第6章中的近似DP。本章经过彻底重组和重写,以使其与第一卷的内容保持一致。第二版,其最新版本于2012年出版,以及最近的事态发展,将近似DP推到了关注的前沿。第6章修订的一些亮点是更加强调一步和多步前瞻方法、参数近似体系结构、神经网络、推出和蒙特卡罗树搜索。在其他应用中,这些方法在最近计算机围棋程序的惊人成功中发挥了重要作用。关于近似DP的材料也为VOL的更多面向分析的处理提供了介绍和一些前景。点击此处直接向出版商订购,并提供前言、目录、补充教育材料、讲座幻灯片、视频等以下论文和报告与本书有很强的联系,并对分析和应用范围进行了详细阐述。
,arxiv预印本arxiv:1910.00120,2019年9月。,#34;实验室。信息和决策系统报告,麻省理工学院,2018年10月;较短的版本显示为arxiv预印本arxiv:1910.02426,2019年10月。第四卷。两卷本DP教科书的第二部分于2012年6月出版。这是Vol的一次重大修订。它包含了大量的新材料,以及对旧材料的重组。长度比第三版增加了60%以上,大部分旧材料都进行了重组和/或修改。第二卷现在有700多页,而且比第一卷大。这本书可以说是一本新书!近似DP已经成为本书的中心焦点,并且占据了本书的一半以上(最后两章,以及1-3章的大部分)。因此,人们也可以将这个新版本视为作者1996年的书“神经动态编程”(与约翰·齐西克利斯合著)的后续版本。收录了许多新材料,这些材料是自上一版以来在六年内进行的研究的副产品。第四版的新版(2018年1月)包含一些最新的材料,特别是关于第四章中的未打折问题,以及第六章中的近似DP。还参考了2017版Vol的内容。I,以及深度强化学习的高调发展,这些发展已经将近似DP带入了关注的前沿。“动态规划与最优控制”第一卷。II:近似动态规划,ISBN-13:978-1-886529-44-1,712页,精装本,2012年。单击此处查看第4章的更新版,其中包含对各种未打折的问题主题的最新研究,包括。
弱条件下的随机最短路径问题及其与正成本问题的关系(第4.1.4和4.4节)。
视频来自塞浦路斯大学关于有限地平线DP的4个讲座,4个小时的短期课程,尼科西亚,2017年。YouTube上的视频。(讲座幻灯片:第一讲、第二讲、第三讲、第四讲。)。2014年,清华大学在中国北京举办的6场讲座,时长12小时的短期课程的视频。来自清华课程网站和YouTube。单击此处下载此12小时视频课程的近似动态编程讲座幻灯片。
关于近似动态规划的7个讲座的短期课程,卡拉达奇,法国,2012年。麻省理工学院课程“动态规划与随机控制”(6.231),2015年12月。最后六节课涵盖了大量近似的动态编程材料。关于动态规划和近似动态规划。研究单声道第二版
下面的论文和报告与本书有很强的联系,并详细阐述了第三章和第四章的半缩性模型的分析和应用范围:
,Lab.。For Information and DecisionSystems Report LIDS-P-3173,MIT,2015年5月;SIAM J.on Optimization,第27卷,第3期,第1694-1727页。(相关讲座幻灯片);(相关视频讲座)。D·P·贝尔塞卡斯,确定性最优控制和自适应动态规划中的价值和策略迭代。
,Lab.。For Information and DecisionSystems Report LIDS-P-3174,MIT,2015年5月(修订于9月。2015年);IEEE神经网络和学习系统学报,第28卷,2017年,第500-509页。,Lab.。信息和决策系统报告LIDS-P-2909,麻省理工学院,2016年1月。,#34;实验室。信息和决策系统报告LIDS-P-2915,麻省理工学院,2014年2月(2015年1月和2016年6月修订);ARXIV预印本ARXIV:1608.01670;海军研究后勤,66(1),第15-37页。,Lab.。信息和决策系统报告LIDS-3204,麻省理工学院,2016年6月;ARXIV预印ARXIV:1608.01393;IEEE会刊,8月。“控制”,第64卷,2019年,第3117-3128页。,";SIAM J.关于控制和优化,第56卷,2018年,第231-252页,(相关讲座幻灯片),(麻省理工学院相关视频讲座,2017年5月)。(相关讲座幻灯片,来自康涅狄格州大学,2017年10月)。(康涅狄格州大学相关视频讲座,2017年10月)。,#34;IEEE自动控制学报,第63卷,2018年,第3787-3792页。(相关讲座幻灯片)。作者的“动态编程”一书第4章的更新版。II,包含对各种未打折问题的最新研究,并与抽象的DP主题相关;(相关讲座幻灯片)。
。自2019年4月9日以来的访问量