外媒《华尔街日报》对主流的5款聊天机器人进行评比,ChatGPT却只拿了第二,谁才是表现最佳的AI模型?
外媒实测5大AI工具
ChatGPT推出至今已经一年半,各家语言模型辈出,但哪款才最适合一般用户日常使用?近日《华尔街日报》针对5款聊天机器人进行测试,并为各种使用场景的回覆品质排名。
《华尔街日报》针对了ChatGPT、Copilot. Gemini、Claude及Perplexity总共5款聊天机器人,分别就医疗、金融、料理、职场写作、创意写作、概要、最新消息、程式以及回应速度等面向进行排名,并且都是使用付费的加强版本。
编辑团队设计出一系列的提示词,以测试各个场景的使用结果,并依照其准确度、帮助程度及整体水准来评分,最后给出各个聊天机器人间的排名。
不过他们强调,这并非科学评估,而是希望反映实际使用这些聊天机器人时得到的回覆。
Perplexity爆冷夺第一
先从结果说起,夺得整体评分第一的并非ChatGPT,而是由新创公司Perplexity所推出的同名聊天机器人,拿下这场「聊天机器人奥运」的金牌。
整体排名的2至5名,则分别是ChatGPT、Gemini、Claude、Copilot。
这并非代表Perplexity在各项领域都碾压其他对手,不过Perplexity在9项评比中拿下其中3项第一,分别是「概要」、「最新消息」及「程式」。
Perplexity商业长谢维连科(Dmitry Shevelenko)指出,「为让模型更简单明了,我们调整了模型,这使得Perplexity能辨识出重点。」
Perplexity是华尔街日报这次测试中,综合表现最佳的一款聊天机器人。图/ Perplexity
虽然Perplexity是整体冠军,但在「回应速度」方面却大幅落后ChatGPT、Gemini及Copilot。
Perplexity已晋升独角兽
Perplexity成立于2022年,员工总数不到40人,打造出了世界上第一个对话式AI搜寻引擎,每月有约1,000万使用人次。
值得一提的是,Perplexity曾获得辉达(Nvidia)、亚马逊(Amazon)创办人贝佐斯(Jeff Bezos)投资。辉达创办人黄仁勋曾在今年2月受访时透露,Perplexit是他最偏好的聊天机器人,并且几乎每天都会使用。
在今年4月的最新一轮融资中,Perplexity募得了6,300万美元资金,使得身价一举超过10亿美元,晋升独角兽的行列。
除上述提到的投资者外,Figma执行长菲尔德(Dylan Field)、Y Combinator执行长陈嘉兴(Garry Tan)也都参与了本轮融资。
聊天机器人各有优势战场
而在各领域回应中,聊天机器人各有优势战场。例如ChatGPT,在医疗、料理、回应速度三项评比中获得第一。
ChatGPT懂做菜
在料理相关的问答里,其中一个考题,是在给AI指定特定食材,让其「发挥创意」制作料理。
《华尔街日报》指出,ChatGPT给出的料理「起司猪肉馅苹果、羽衣甘蓝沙拉、巧克力脆饼」兼具创意及可行性。
Gemini懂遗产
Gemini则在金融领域的问答表现最佳。在测试中,关于利率、退休存款、遗产等问题,评审团队声称Gemini在处理遗产方面的题目回应最好,并且提醒了用户「在没有专业人士的指导下,不要急着把钱领出来。」
Claude懂写文案
而Anthropic旗下聊天机器人Claude,是职场写作领域的冠军,题目包括要求机器人写一篇提示词工程师的招募文案等。
实际上,Perplexity、Gemini和Claude的表现十分接近,不过Claude藉由一篇宣布宝宝诞生的公告,以些微差距夺冠。
虽然Copilot这次表现不佳,不过微软表示他们计画将GPT-4o整合进去加强性能。图/ 微软
Copilot,带来欢乐
虽然微软的Copilot在多项评比中都是吊车尾,不过创意写作就是它的舞台了。
在这个评比中,《华尔街日报》给出一堆荒唐的题目要求AI发挥,例如「川普和拜登在路上打架」等,他们声称Copilot的回应带来了许多欢乐。
AI之战路遥遥,鹿死谁手仍未定
总的来说,这些评比虽然只是一间媒体的内部评分,也一定程度上反应出各个聊天机器人都有自己擅长的领域。
尽管Copilot在这次评分中表现最差,微软表示他们很快会将OpenAI的最新模型GPT-4o整合进Copilot,提高聊天机器人的能力。
在AI竞赛越趋白热化的情况下,最后谁能成为赢家,或许还很难说。
本文链接地址:https://www.wwsww.cn/hqfx/25907.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。