分享好友 健康资讯首页 健康资讯分类 切换频道

GPT-4o能玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案

2024-09-24 20:52650

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。

图片

有方向感,视角也没有问题。

图片

躲闪劈棍很丝滑。

图片

甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。

图片

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。

它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude3.5都来迎战

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

图片

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

图片

然后,他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

图片

同时VARP还包含3个库:情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

图片

框架分别使用了GPT-4o(2024-0513版本)、Claude3.5Sonnet和Gemini1.5Pro。

对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时,Claude3.5Sonnet败下阵来,GPT-4o胜率最高

但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。

图片

另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。

如上研究来自阿里团队,一共有5位作者。

图片

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。

论文地址:

https://arxiv.org/abs/2409.12889

项目地址:

https://varp-agent.github.io/

举报
收藏 0
打赏 0
评论 0
智象未来CEO梅涛:多模态模型Token的毛利率,远高于语言模型
文|王欣逸 李嘉星编辑|周鑫雨一家Day 1就在做多模态大模型的公司,无法拒绝参与到具身智能和世界模型热潮之中。2026年,随着Seedance 2.0、GPT Image 2.0等模型的爆火,多模态能力越来越成为行业内绕不开的关键词。5月19日,智象未来首届开放日上,智象未来给出了他们的判断和回答:“原生多模态是实现AGI的必经之路。”本场开放日活动主题为“Imaging the World”,

0评论2026-05-280

消费级机器人大爆发,我在今年看到的产业新变化
前沿产业的范式转移,往往在大众尚未完全察觉的时刻悄然完成。过去很长一段时间,人形机器人与具身智能,始终游离在消费市场的认知边界之外。它是CES展台光影交织的概念展品,是春晚舞台经过反复彩排的技术展演,是超级工厂里小范围试用的试验设备。公众对这一赛道的印象,长期停留在炫酷、昂贵、不成熟的标签里,距离日常消费生活有着遥远的距离。但在短短数个月的时间里,这种认知鸿沟正在被快速填平。智元可便携收纳的小型人

0评论2026-05-280

富途、老虎被罚后资金搬家,有人浮亏40万进退两难
5月22日晚上,在老虎证券、富途证券等跨境券商合计被罚超22亿元的信息披露后,作为老虎证券用户的上海某智库从业者华康(化名)连夜清仓中概股,回流资金用于投资A股、偿还房贷。当天下午,多部门联合重磅落地非法跨境证券业务整治行动,证监会对富途、老虎、长桥等境内外相关主体在境内非法经营证券业务等行为立案调查。本次监管明确升级,2年过渡期内存量账户实行“只出不进”规则,期满则全面关停服务,无牌跨境券商在内

0评论2026-05-280

BD收入锐减拖累业绩,石药集团Q1净利大跌
5月27日,石药集团(01093.HK)发布2026年一季报。财报显示,报告期内,公司实现收入64.65亿元,同比减少7.8%;股东应占溢利为8.60亿元,同比下降41.8%。分板块来看,2026年一季度,石药集团成药板块收入为52.24亿元,同比下降5%;原料产品板块收入为7.96亿元,同比下降25.7%;功能食品及其他板块收入为4.45亿元,同比微增0.5%。其中,原料产品收入下滑主要受维生素

0评论2026-05-280