Claude 3.5 Sonnet大升级！能代订机票的AI秘书不远了？

AI新创公司Anthropic于10月22日发布升级版Claude 3.5 Sonnet，以及全新模型Claude 3.5 Haiku！

更新后的Claude 3.5 Sonnet，开放用户测试「电脑操作」（Computer Use）功能，这项技术允许AI能模拟人类操作滑鼠的动作，透过电脑的应用程式完成多步骤任务，亦即「AI代理」功能。

Anthropic也宣布在10月底释出全新迷你模型Claude 3.5 Haiku，其在许多智慧基准测试上超过了上一代最大模型Claude 3 Opus，「在编码任务上尤其强大。」

Claude 3.5 Sonnet评测表现大升级

升级后的Claude 3.5 Sonnet在效能上超越前一代，特别是在编码、工具使用及推理任务中的表现有着显著提升。

除了MATH略逊Gemini 1.5 Pro之外，Claude 3.5 Sonnet在其它评测都胜过Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4o与GPT-4o mini。

在与撰写程式相关的HummaEval及SWE-bench Verified评测中，Claude 3.5 Sonnet夺得了93.7%及49%的成绩，高过前一个版本的88.1%与40.6%。

另一个TAU-bench，是用来测试AI代理工具于真实世界场景中的表现，能否处理复杂且多步骤的任务，并与使用者进行自然对话。Claude 3.5 Sonnet在零售领域的表现达到69.2%，在航空领域的表现为46%，高于前一版的62.6%与36%。

图/ Claude

靠AI订机票？代理功能值得期待

Claude 3.5 Sonnet的「电脑操作」（Computer Use）功能，能够模拟人类操作电脑，包括点击按钮、移动滑鼠游标、输入文字等操作，甚至能够进行网站导和即时网页浏览。

Anthropic的科学总监贾里德．卡普兰（Jared Kaplan）表示：「Claude 3.5 Sonnet可以理解并与任何桌面应用程式互动，完成数十甚至数百个步骤的任务，这是AI技术在实体世界应用中迈出的重要一步。」

亚马逊是最早测试「电脑操作」功能来简化内部流程的企业之一，其他初期测试者也包括Asana、Canva和Notion等知名企业，它们尝试将功能应用于自动化任务中，例如设计与编辑流程、表单填写、数据处理等。 Replit则利用Claude 3.5开发了一个自动验证应用程式功能，能在App的开发过程中自动检查并验证代码。

Anthropic计划未来将「电脑操作」功能扩展到更多应用场景，例如让AI自动完成预订航班、安排会议或报销表单填写等，进一步提升工作效率。

适合中小企业，更小更快的Claude 3.5 Haiku模型

Anthropic也宣布预计在10月底推出全新Claude 3.5 Haiku模型，这款模型是Claude家族中速度最快的产品。

根据官方说法，Claude 3.5 Haiku以与前代Claude 3 Haiku相同的成本与速度，展现了更强大的综合能力，并在许多智能评测中超越了此前的最大模型Claude 3 Opus。在SWE-bench编码评测中，以40.6%的成绩胜过多款主流模型。

Claude 3.5 Haiku将先以纯文字模式推出，未来也将支援图像输入功能。开发者可以透过Anthropic的API、Amazon Bedrock与Google Cloud的Vertex AI等平台进行使用。

如何防范代理AI失控？

尽管「电脑操作」功能开启了AI应用的新可能性，但AI代理能模拟人类的操作，也意味着可能被滥用。过往的研究发现，AI模型在受到越狱攻击（jailbreaking）时，有可能执行不法行为，例如购买假证件或发布虚假讯息。对此，Anthropic也在「电脑操作」功能的开发过程中采取了多项预防措施。

首先，Claude 3.5 Sonnet在训练过程中并未使用用户的萤幕截图或输入内容，确保模型不会接触到用户的隐私资料。

此外，Anthropic还开发了一系列分类器，能够在AI执行被认为是高风险的行动时即时识别，并引导AI远离高风险行动。例如，在社交媒体上发布资讯、创建帐户或与政府网站互动，以减少风险。

Anthropic也会保留由「电脑操作」功能捕捉的萤幕截图，保存期限至少为30天，若有合法需求，Anthropic也会依据法律程序配合调查。

本文链接地址：https://www.wwsww.cn/hqfx/28475.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

Claude 3.5 Sonnet评测表现大升级

靠AI订机票？代理功能值得期待

适合中小企业，更小更快的Claude 3.5 Haiku模型

如何防范代理AI失控？

相关文章阅读