您当前的位置:首页 > 指南 > 正文

人工智能探索将焦点从奖励转移到好奇心

导读: 由加利福尼亚大学伯克利分校(arXiv)的一组研究人员编写了一篇题为通过自我监督预测的好奇心驱动探索的论文。不要被标题所吓倒,因为本文从...

由加利福尼亚大学伯克利分校(arXiv)的一组研究人员编写了一篇题为“通过自我监督预测的好奇心驱动探索”的论文。

不要被标题所吓倒,因为本文从习惯性的强化学习中探讨了他们进入人工智能的迷人之路。

本月早些时候发表的合着作者Pulkit Agrawal的视频摘要是他们的机器学习国际会议论文摘要。

他们一直在教电脑好奇。正如未来主义所说的那样,“研究人员成功地给了人工智能植入物。”

但作为作者在视频中提到的“内在好奇心”模型。他们在说什么?

麻省理工学院技术评论中的 Knight 是否会这样说。该模型由加州大学伯克利分校的研究人员开发,“即使在没有强反馈信号的情况下,也能使他们的学习算法工作。”

作者在GitHub上进一步解释。“当环境中的外部奖励稀少时,想法是培养具有内在好奇心动机(ICM)的代理人。令人惊讶的是,即使环境中没有可用的奖励,您也可以使用ICM,在这种情况下,代理人只能学习探索好奇心:'RL没有奖励'。“

未来主义说:“这可能是人工智能与现实应用之间的桥梁。” Tom Ward说:“大多数现有的AI都是使用'强化学习'训练的 - 当他们执行一项帮助他们达到目标或完成一项功能的任务时,他们会得到奖励。”

Will Knight说,这被认为是一种有益的方法,因为它使“机器能够完成难以在代码中定义的东西”。

与此同时,奈特表示,它具有局限性。“Agrawal指出,学习任务往往需要大量的培训。”

该论文的作者是来自加州大学伯克利分校的Deepak Pathak,Pulkit Agrawal,Alexei Efros,Trevor Darrell。他们在视频中强调了这样一个事实:在现实世界中,奖励稀少或缺席。

“在许多现实世界的情景中,代理人的外在奖励极其稀疏,或完全缺席。在这种情况下,好奇心可以作为一种内在的奖励信号,使代理人能够探索其环境并学习以后可能有用的技能。它的生命。“

例如,他们的研究中的代理人学会了如何在没有任何外在奖励的情况下沿着走廊移动。他们提出的方法在两个环境中进行了评估:VizDoom和Super Mario Bros.

结果?Knight报道说,在这两款游戏中,“使用人工好奇心使学习过程更加高效。”

“虽然没有充满好奇心 '升级'的人工智能反复撞击墙壁,但好奇的人工智能探索了它的环境,以便学习更多,”沃德在未来主义中说。

为什么这很重要?如果他们确实让机器变得好奇,那么这会带来更好的复杂任务吗?观察这些研究人员的进一步工作将会很有趣。麻省理工学院技术评论说:“加州大学伯克利分校的团队热衷于在机器人身上进行测试,这些机器人使用强化学习来研究如何抓住尴尬的物体。”


声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。

上一篇: 谭正岩一家三口 谭正岩

下一篇: 橙光鲜花破解器 橙光游戏鲜花破解版电脑版



推荐阅读