萨顿科普了强化学习、深度强化学习,并谈到了这项技术的潜力和发展方向

发布日期:2019-06-16 来源:网络整理 浏览量:
  • 地处加拿大埃德蒙顿的阿尔伯塔大学(UAlberta)可谓是强化学习重镇,这项技术的缔造者之一萨顿(Rich Sutton)在这里任教。

    萨顿科普了强化学习、深度强化学习,并谈到了这项技术的潜力和发展方向

    △ 萨顿

    萨顿常被称为“强化学习之父”,他对强化学习的重要贡献包括时序差分学习和策略梯度方法。

    如果你研究过强化学习,可能对他和巴尔托(Andrew Barto)合著的一本书很熟悉:《强化学习导论》(Reinforcement Learning, an introduction)。这本书被引用了2.5万多次,如今,第二版即将出版,全书草稿也已经在网上公开。

    萨顿科普了强化学习、深度强化学习,并谈到了这项技术的潜力和发展方向

    △ Reinforcement Learning, an introduction草稿

    巴尔托是萨顿的博士论文导师,萨顿的博士论文《强化学习的时间学分分配》(Temporal Credit Assignment in Reinforcement Learning)中,引入了一种评价器结构和“时间信用分配”。他们把“显而易见”的强化学习理念,变成了一个以数学为基础的可行理论。

    萨顿获得了斯坦福大学心理学学士学位(1978年)和硕士学位(1980),以及马萨诸塞大学安姆斯特分校计算机博士学位(1984)。

    从1985年到1994年,Sutton担任GTE实验室的首席技术员。之后,他在麻省大学安姆斯特分校做了3年的高级研究员,然后又到AT&T香农实验室做了5年的首席技术员。2003年以来,他一直在阿尔伯塔大学计算机系担任教授兼iCORE主席,领强化学习和人工智能实验室。

    2003年以来,萨顿在阿尔伯塔大学计算机系任教授、iCORE主席,领导着强化学习和人工智能实验室。今年6月,DeepMind在埃德蒙顿和阿尔伯塔大学联合设立首个海外研究院,萨顿也是这个研究院的领导者之一。

    最近,机器学习和数据科学社区KDnuggets董事长,数据科学会议KDD和ACM SIGKDD的联合发起者Gregory Piatetsky专访了萨顿。

    萨顿在专访中(再次)科普了强化学习、深度强化学习,并谈到了这项技术的潜力,以及接下来的发展方向:预测学习。

    量子位将专访内容搬运如下:

    萨顿科普了强化学习、深度强化学习,并谈到了这项技术的潜力和发展方向

    △ 典型的强化学习过程

    我在上世纪80年代遇到了Rich Sutton,我和他当时都刚开始在波士顿地区的GTE实验室读博士。我研究智能数据库,他在强化学习部门,但是我们在GTE实验室的项目还远没有实际应用。我们经常下象棋,我们俩在这方面势均力敌,但在机器学习方面,Rich远远领先于我。

    Q:强化学习的主要思想是什么?它与监督学习有何不同?

    萨顿:在与世界的正常互动过程中,强化学习会通过试错法利用奖励来学习。因此,它跟自然学习过程非常相似,而与监督学习不同。

    在监督学习中,学习只发生在一个特殊的训练阶段,这个阶段中会出现一个正常情况下不会出现的监督或教学信号。

    例如,语音识别目前通过监督学习来完成,需要使用大量的语音数据集和正确的文本内容。这些文本内容就是一种监督信号,等系统开始工作、输入了新的语音时,就没有这个监督信号了。

    而AI打游戏,通常就是通过强化学习来实现的,需要利用游戏的结果作为奖励。即使你玩了一个新游戏,也会看到自己是赢是输,并且可以用强化学习算法来提高你的游戏技术。

    监督式游戏学习方法则需要借助一些“正确”的动作来实现,这些动作可以来自人类专家。这很方便,但在正常的游戏中是不可用的,而且会导致学习系统的技能局限在人类专家的技能范畴内。在强化学习中,你可以用较少的训练信息,这样做的优势是信息更充足,而且不受监督者的技能限制。

    Q:你跟Andrew Barto合著的经典著作《强化学习导论》的第二版很快就要出版,具体什么时候?第二版的主要修订了哪些内容?你能跟我们讲讲新章节里关于强化学习与心理学之间有趣联系吗(第14章)?还有跟神经科学之间的有趣联系(第15章)?

    萨顿:第二版的完整草稿目前已经可以在richsutton.com上看到。Andy Barto和我正在定稿:验证所有的参考文献,诸如此类。印刷版将于明年初发行。

    从第一版发行以来的20年里,强化学习领域发生了很多事情。其中最重要的或许是强化学习思想对神经科学的巨大影响,现在,大脑奖励系统的标准理论是,它们是一种时间差异学习的实例(这是强化学习的基本学习方法之一)。

  • 相关新闻:
最新新闻
热门新闻

中国健康世界网 All Rights Reserved 赣ICP备06006962号 邮箱:sheng6665588@gmail.com