研究人员使用游戏《超级马力欧》作为参考,对Claude 3.7等AI模型进行评估测试。实验发现,许多优秀模型反而在游戏中吃亏,为什么?
发生什么事?
研究人员使用游戏《超级马力欧》作为参考,对Claude 3.7、Google Gemini 1.5 Pro等AI模型进行评估测试。
研究发现,Anthropic的Claude 3.7表现上超越GPT-4o和Gemini 1.5 Pro等模型。原因是在需要快速反应的游戏情境下,拥有复杂推理能力的模型,反而因为处理时间较长,而无法顺利通过关卡。
超级马力欧成为AI模型测试战场
经典游戏超级马力欧(Super Mario Bros.),如今不仅是无数玩家的童年回忆,它也成为了AI模型测试的新战场。
隶属加州大学圣地牙哥分校旗下的研究单位Hao AI Lab,近期以这款游戏为测试平台,对多种AI模型的反应速度、决策能力进行评估。最终结果显示,不同模型在即时反应及处理复杂情境上,具有极大差异,其中Claude 3.7在所有模型中脱颖而出,表现远胜于其他竞争者。
Hao AI Lab开发了一个名为「GamingAgent」的框架,让AI在游戏中控制角色。该框架可让AI拥有基本的游戏能力,例如在过程中闪避障碍物、敌人等。而根据结果,Claude 3.7无论是在反应时间还是决策的灵活度上,都优于Google的Gemini 1.5 Pro与OpenAI的GPT-4o。
「推理模型」反而在游戏中吃亏?
令人意外的是,OpenAI的GPT-4o或是Google的Gemini 1.5 Pro,这些模型在许多测试中表现都相当优异,但它们却在需要即时反应游戏环境中碰壁。研究人员分析,这些模型的问题,就在于其推理过程相对复杂,决策需要一定的时间来进行思考和计算。
但在快速变化的游戏环境中,一秒钟的犹豫,就会让玩家碰上敌人或被障碍打到,因此,需要深度推理的模型,反而在「反应速度」上的居于劣势。
相反地,Hao AI Lab发现一些不依赖深度推理过程的模型,反而表现更加灵活,且能迅速做出反应,有效应对游戏中的挑战。这个实验结果也让人开始思考,在游戏开发、机器人技术还有自动化技术的情境中,AI技术未来是否需要进一步做出调整。
《TechCrunch》指出,游戏其实被用来当作AI测试的标准,已经有几十年历史,但仍有一些专家质疑,用AI在游戏中的表现来评比模型是否合理,毕竟游戏与现实世界相比,缺少解决复杂问题和应对多变情况的情境。
尽管AI在游戏中表现越来越好,但外媒认为在游戏中表现最让人惊艳的,目前只有人类玩家。人类在复杂的游戏场景中,展现出极高的适应能力和创造力,这是AI目前无法完全复制的。
本文链接地址:https://www.wwsww.cn/hqfx/30941.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。