外媒实测5大AI工具：Perplexity打败ChatGPT、Gemini夺第一！

外媒《华尔街日报》对主流的5款聊天机器人进行评比，ChatGPT却只拿了第二，谁才是表现最佳的AI模型？

外媒实测5大AI工具

ChatGPT推出至今已经一年半，各家语言模型辈出，但哪款才最适合一般用户日常使用？近日《华尔街日报》针对5款聊天机器人进行测试，并为各种使用场景的回覆品质排名。

《华尔街日报》针对了ChatGPT、Copilot． Gemini、Claude及Perplexity总共5款聊天机器人，分别就医疗、金融、料理、职场写作、创意写作、概要、最新消息、程式以及回应速度等面向进行排名，并且都是使用付费的加强版本。

编辑团队设计出一系列的提示词，以测试各个场景的使用结果，并依照其准确度、帮助程度及整体水准来评分，最后给出各个聊天机器人间的排名。

不过他们强调，这并非科学评估，而是希望反映实际使用这些聊天机器人时得到的回覆。

先从结果说起，夺得整体评分第一的并非ChatGPT，而是由新创公司Perplexity所推出的同名聊天机器人，拿下这场「聊天机器人奥运」的金牌。

整体排名的2至5名，则分别是ChatGPT、Gemini、Claude、Copilot。

这并非代表Perplexity在各项领域都碾压其他对手，不过Perplexity在9项评比中拿下其中3项第一，分别是「概要」、「最新消息」及「程式」。

Perplexity商业长谢维连科（Dmitry Shevelenko）指出，「为让模型更简单明了，我们调整了模型，这使得Perplexity能辨识出重点。」

Perplexity是华尔街日报这次测试中，综合表现最佳的一款聊天机器人。图/ Perplexity

虽然Perplexity是整体冠军，但在「回应速度」方面却大幅落后ChatGPT、Gemini及Copilot。

Perplexity成立于2022年，员工总数不到40人，打造出了世界上第一个对话式AI搜寻引擎，每月有约1,000万使用人次。

值得一提的是，Perplexity曾获得辉达（Nvidia）、亚马逊（Amazon）创办人贝佐斯（Jeff Bezos）投资。辉达创办人黄仁勋曾在今年2月受访时透露，Perplexit是他最偏好的聊天机器人，并且几乎每天都会使用。

在今年4月的最新一轮融资中，Perplexity募得了6,300万美元资金，使得身价一举超过10亿美元，晋升独角兽的行列。

除上述提到的投资者外，Figma执行长菲尔德（Dylan Field）、Y Combinator执行长陈嘉兴（Garry Tan）也都参与了本轮融资。

而在各领域回应中，聊天机器人各有优势战场。例如ChatGPT，在医疗、料理、回应速度三项评比中获得第一。

在料理相关的问答里，其中一个考题，是在给AI指定特定食材，让其「发挥创意」制作料理。

《华尔街日报》指出，ChatGPT给出的料理「起司猪肉馅苹果、羽衣甘蓝沙拉、巧克力脆饼」兼具创意及可行性。

Gemini则在金融领域的问答表现最佳。在测试中，关于利率、退休存款、遗产等问题，评审团队声称Gemini在处理遗产方面的题目回应最好，并且提醒了用户「在没有专业人士的指导下，不要急着把钱领出来。」

而Anthropic旗下聊天机器人Claude，是职场写作领域的冠军，题目包括要求机器人写一篇提示词工程师的招募文案等。

实际上，Perplexity、Gemini和Claude的表现十分接近，不过Claude藉由一篇宣布宝宝诞生的公告，以些微差距夺冠。

虽然Copilot这次表现不佳，不过微软表示他们计画将GPT-4o整合进去加强性能。图/ 微软

虽然微软的Copilot在多项评比中都是吊车尾，不过创意写作就是它的舞台了。

在这个评比中，《华尔街日报》给出一堆荒唐的题目要求AI发挥，例如「川普和拜登在路上打架」等，他们声称Copilot的回应带来了许多欢乐。

总的来说，这些评比虽然只是一间媒体的内部评分，也一定程度上反应出各个聊天机器人都有自己擅长的领域。

尽管Copilot在这次评分中表现最差，微软表示他们很快会将OpenAI的最新模型GPT-4o整合进Copilot，提高聊天机器人的能力。

在AI竞赛越趋白热化的情况下，最后谁能成为赢家，或许还很难说。

本文链接地址：https://www.wwsww.cn/hqfx/25907.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。