AI语言模型蜜月期已过!GPT系列产品品质正在走下坡吗?

GPT-4 在6 月份所释出的更新版本,其品质受到数千位付费用户的批评与指责,更有研究论文指出GPT 的发展与体验随时间推进,而变得更糟。但不论是对其表现行为优劣的定义、或是功能退化的证据,事实是还有更多细节需要被解读。

GPT 产品越更新越糟?

近期,一篇探讨有关「ChatGPT 的行为是否随时间改变」的论文被广泛流传并讨论,该内容就数据结果暗示,GPT-4 自推出以来就持续在退化。

论文对GPT-3.5 及GPT-4 进行了四项任务的测试,包括数学问题(质数检查) 、回应敏感问题、生成代码及视觉推理。资料显示,GPT-4 在数学问题及代码生成任务的回答品质上发生改变,而数学问题更是为人津津乐道。

可以明显看见,数学问题就回答的准确度而言,在GPT-4 及GPT-3.5 中产生显著变化,前者退化而后者进步。研究指出,GPT-4 在进行所有质数判断时,几乎倾向猜测该数字是合数,而缺乏具逻辑性的推理结构,因此视为性能下降。

而在代码生成的测试中,论文发现6 月的GPT-4 与3 月的版本相比,在生成及修正代码时,较未能全面评估代码的正确性,容易使得生成的代码无法直接执行。

部分用户反应一致

一些用户在推特上表示,GPT 系列产品品质在近期的更新后,单就回答问题的正确率而言,其功能的确已不再像以往这么强大。

OpenAI 开发人员Logan.GPT 也公开回应众多评论,向反应有关GPT-4 使用体验的用户表达感谢,并着手调查。

论文评估标准引起质疑

不过以上论点也被质疑,将语言训练模型的功能及表现行为的好坏定义太过简易化,其内容仍需要被讨论。

一篇来自Substack 的文章提出主张:「语言模型在特定任务上的表现行为有所变化,并不代表其能力有所下降。」

撰文者表示,在聊天机器人的情境中,能力是指模型理解及处理语言的能力,而行为是指模型如何根据不同的提示及问题来回应。

他针对数学问题说明,GPT-4 的确没有就「关联思考提示(Chain of Thought, COT)」进行推理。但实际上,四个模型都同样糟,都仅是根据他们更新后被校正的方式进行猜测。

同时他也认为,GPT-4 在数学问题上的行为变化,也可能是由于测试数据的选择(近500 则问题都仅测试质数) 及评估方式的不当所导致的,而不是由于其能力的退化。

文章最后表明:

总而言之,该论文也告诉我们,将人为设计的指标或评估标准,套用于讨论人工智慧语言训练模型的性能变化是多么困难。

本文链接地址:https://www.wwsww.cn/rgzn/20145.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关文章阅读