您当前的位置:首页 > 指南 > 正文

DeepMind AI展示了赢得合作团队的行为

导读: 最近的Dota 2 openAI,他们的人花了几个月的训练新的AI系统,使机器人能够作为一个团队一起玩的壮举,曾底气写在墙上:在多人视频游戏阵...

最近的Dota 2 openAI,他们的人花了几个月的训练新的AI系统,使机器人能够作为一个团队一起玩的壮举,曾底气写在墙上:在多人视频游戏阵容出战是在AI的热门焦点,现在。

研究人员正在接受如何在高级水平上实现这一目标的挑战。(为什么人工智能团队合作总是被描述为一个挑战?麻省理工学院技术评论中的奈特说:“团队合作在人工智能课程中非常难以有效发展,因为它涉及到处理复杂且不断变化的情况。”)

本周你有另一个明星团队的证明,这次是DeepMind的工作。他们皇家地展示了AI如何在多人游戏中击败人类对手。DeepMind的科学家和工程师提醒我们,AI代理商如何匹配并在某些情况下在合作游戏中超越人类。

麻省理工学院技术评论的Knight 在下载中发帖称,AI代理人在Quake III Arena的修改版本中接受了DeepMind的培训。团队合作技巧在游行中 - 代理人在Quake III Arena上玩了夺旗(CTF)。

对于那些不熟悉CTF和Quake III Arena的人来说,Rob LeFebvre的概述可以提供帮助。在Engadget写作,他解释了他们的挑战。

“团队专注于捕捉旗帜模式,其中地图从匹配变为匹配。其AI代理必须学习能够适应每个新地图的一般策略,这是人类容易做到的事情。代理人也需要既可以与团队成员合作,也可以与对方团队竞争,并且能够适应不同的敌人游戏风格。“

测试锦标赛涉及人类与训练有素的特工一起玩CTF。

“For the Win”(FTW)特工学会了比强大的基线方法更强大,并且超过了人类玩家的赢率。在参与者的调查中,他们被评为比人类参与者更具协作性。

正如麻省理工学院技术评论所述,“人工智能代理也可以与人类玩家合作 - 这些玩家说这些项目比大多数人都更好。”

“两队各个球员在给定的地图上竞争,目标是在保护自己的同时抓住对手球队的旗帜。为了获得战术优势,他们可以标记对手的队员将他们送回他们的产卵点。五分钟后获得的旗帜获胜。“

“每日电讯报”称该游戏为“迷宫,其目标是在保护自己的旗帜的同时抓住对手队的旗帜。”

对于“电讯报”中的 Margi Murphy来说,这项壮举的有趣之处在于“DeepMind的人工智能似乎通常采用人类的心理策略来赢得比赛 - 而不是记住游戏地图和移动可能产生的结果。”

The For Win(FTW)人工智能玩了近45万场Quake III Arena游戏,以获得其对人类玩家的统治地位,在The Verge中的 Khari Johnson表示,并建立了对如何有效地与其他机器和人类合作的理解。

约翰逊重新回顾了比赛结果。

捕获的标志:“平均而言,人机团队每场比赛的旗帜比两个FTW特工团队少了16个。”

标记性能:“在标记中发现代理比人类有效,与人类相比,80%的时间达到了48%。” (标记涉及触摸对手将其发送回其产卵点。)

行为:对人类参与者的调查“发现FTW比人类队友更具协作性”。

DeepMind博客对于那些对多玩家视频游戏中的这种场景的人工智能培训过程充满好奇的人来说很有意思。

“我们不是培训单一的经纪人,而是训练一群代理人,他们通过互相学习来学习,提供多样化的队友和对手。

“人口中的每个代理人都学习自己的内部奖励信号,这允许代理人产生他们自己的内部目标,例如捕获旗帜。双层优化过程直接优化代理人的内部奖励以获胜,并使用强化学习学习代理商政策的内部奖励。

“代理以两倍的速度运行,快速和慢速,这提高了它们使用内存和生成一致动作序列的能力。”


声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。

上一篇: 新媒体运营面试基本问题及答案 新媒体运营面试问题及答案

下一篇: 每次打开网页都是最小化 网页打开不是最大化



推荐阅读