AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

时间：2025-03-04 16:20:38 来源：360直播吧

加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室（Hao AI Lab）上周五开展了一项独特的研究，将人工智能（AI）引入经典游戏《超级马力欧兄弟》中，以测试其性能表现。研究结果显示，在参与测试的 AI 模型中，Anthropic 的 Claude 3.7 表现最为出色，紧随其后的是 Claude 3.5。相比之下，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则表现不佳。

需要明确的是，此次实验所使用的并非 1985 年最初发布的《超级马力欧兄弟》版本。游戏运行在一个模拟器中，并通过一个名为 GamingAgent 的框架与 AI 进行连接，从而让 AI 能够控制马力欧。GamingAgent 由 Hao 人工智能实验室自主研发，其向 AI 提供基本指令，例如“如果附近有障碍物或敌人，向左移动或跳跃以躲避”，同时还提供游戏内的截图。随后，AI 通过生成 Python 代码的形式来操控马力欧。

据实验室介绍，该游戏环境迫使每个 AI 模型“学习”如何规划复杂的操作并制定游戏策略。有趣的是，实验发现像 OpenAI 的 o1 这样的推理模型（它们通过逐步思考问题来得出解决方案）表现不如“非推理”模型，尽管它们在大多数基准测试中通常表现更强。研究人员指出，推理模型在实时游戏中表现不佳的主要原因之一是它们通常需要花费数秒时间来决定行动。而在《超级马力欧兄弟》中，时机至关重要，一秒钟的差别可能意味着安全跳过和坠落死亡的不同结果。

数十年来，游戏一直是衡量 AI 性能的重要工具。然而，一些专家对将 AI 在游戏中的表现与技术进步直接挂钩的做法提出了质疑。与现实世界相比，游戏往往是抽象且相对简单的，并且能够为 AI 训练提供理论上无限的数据。

IT之家注意到，最近一些引人注目的游戏基准测试结果引发了 OpenAI 研究科学家、创始成员安德烈・卡帕西（Andrej Karpathy）所说的“评估危机”。他在 X 平台上发表的一篇帖子中写道：“我目前真的不知道该关注哪些 AI 指标。”他总结道：“我的反应是，我目前真的不知道这些模型到底有多好。”

标签模型推理操作马力超级兄弟

上一篇：新华社采访多位国内游戏制作人：国产单机游戏未来拥有无限的可能！

下一篇： mayumi更博晒照：一周内就抵达中国

AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

热门数据

相关信息

媒体人：这猪妹一个人追着BLG四个人跑BLG也就ON还在不停找机会

蔚蓝边际T1vsBLG单曲《擒花瓷》：飞科胡须未剃完，却将BLG头发全剃光

Zzr：这把fly打野好强一整把的思路都很清晰但中上ad都挺一般

BLG粉丝怒喷：继续提高下路优先级爱看，继续给上路选肉我更爱看

FLY官推盛赞Inspired：这就是为什么他是西方历史最佳打野

夏天这个季节还是太权威了！PEL主持Titi晒照：三亚OOTD！

天舒：第一把就被这样虐吗Inspired的猪妹像神加油啊BLG

涵艺聊BLG阵容：甩锅打野就离谱四楼塞恩上路被抓死下路被线杀

解说MacT吐槽：一睁眼就发现blg在挨打

米勒吐槽：下路优先级是提高了......打得也太臭了

07月06日国青男篮热身赛海安站中国男篮U16澳大利亚U16全场录像

07月06日NBA盐湖城夏季联赛76人爵士全场录像

07月02日U19男篮世界杯18决赛新西兰男篮U19中国男篮U19全场录像

06月30日国青男篮热身赛响水站中国男篮U16新西兰U16全场录像

06月30日WNBA常规赛西雅图风暴金州女武神全场录像

06月30日WNBA常规赛康涅狄格太阳明尼苏达山猫全场录像

06月30日WNBA常规赛拉斯维加斯王牌菲尼克斯水星全场录像

06月29日NBL常规赛盐南汤沟国藏石家庄翔蓝全场录像

06月29日NBL常规赛广西威壮江西鲸裕清酒全场录像

06月29日NBL常规赛湖北文旅合肥狂风峻茂全场录像

相关集锦

夏联明茨26分&连拿5分杀死比赛伯顿23+976人险胜灰熊

加州经典赛拉松15+520号秀亚库乔尼斯5中0热火战胜勇士

WNBA常规赛芝加哥天空7981华盛顿神秘人全场集锦

女篮热身赛杨舒予15分张子宇缺阵中国女篮复仇澳大利亚

07月08日WNBA常规赛达拉斯飞翼菲尼克斯水星精彩镜头

夏联森萨博37分贝利18+7GG杰克逊27+5爵士17分逆转灰熊

07月08日WNBA常规赛金州女武神亚特兰大梦想精彩镜头

夏联：A米切尔11中3托皮奇13中2席菲诺17分雷霆击败76人

07月07日WNBA常规赛芝加哥天空明尼苏达山猫精彩镜头

夏联：大卫琼斯25分大莫布里16分马刺险胜勇士

热门TAG