OpenAI新模型「o1」介绍:OpenAI o1有何亮点?如何使用?

ChatGPT 开发商 OpenAI于北京时间2024 年9 月13 日凌晨推出了新模型「o1」,这是一种经过改进的全新AI 模型,旨在透过增强推理能力来处理更复杂的任务。「o1」之前的代号为「草莓」(Strawberry),OpenAI 已经悄悄开发了一段时间。

据悉,OpenAI「o1」 的第一个版本:o1-preview 和o1-mini 将以预览版形式向ChatGPT Plus 和Team 订阅者开放,用户讯息数分别限制为30 条和50 条。

本篇文章中,我们将详细介绍此次新发布的「OpenAI o1」模型的亮点,以及「o1」模型该怎么用?收费多少?

OpenAI 发布新AI 模型「o1」

OpenAI 终于在北京时间9 月13 日凌晨发布了传闻中的「草莓」人工智能语言模型,该模型系列的正式名称为「OpenAI o1」,旨在「透过复杂的任务进行推理并解决问题」。

「OpenAI o1」最初将以两种形式推出:o1-preview 和o1-mini,可供ChatGPT Plus 和某些API 用户使用。

OpenAI 在一篇部落客文章中表示,「OpenAI o1」在做出反应之前,会「花更多时间思考」,就像人类一样。透过训练,它们学会完善自己的思考过程,尝试不同的策略,并认识到自己的错误。

这一改变来自于模型背后的「链式思考」(Ch ai n-of-thought)机制。这种思考使「o1」能够更准确地解答问题,对解决复杂的推理任务而言是一个重大进步。

OpenAI 表示,o1 模型可以推理复杂的任务并处理与科学和数学相关的查询。该公司建议医疗保健研究人员可以使用o1 来注释细胞定序数据或帮助物理学家产生量子光学所需的复杂数学公式。

与此同时,「OpenAI o1」也擅长准确产生和调试复杂的程式码。

目前,我们可以在OpenAI 官网上看到该公司分享的许多o1 完成编程任务和解决逻辑难题的演示影片,透过这些影片,您会对「OpenAI o1」的功能有更深的了解。

「OpenAI o1」有何亮点?

OpenAI 表示,作为早期模型,「o1」还不具备ChatGPT 的许多实用功能,例如浏览网页以获取资讯以及上传文件和图像等等。对于许多常见情况,GPT-4o在短期内将更有能力。

OpenAI 产品经理Joanne Jang 也明确表示,「我的推送中有很多关于o1 的炒作,所以我担心它可能会设定错误的期望」。他表示,「o1」是第一个在真正困难的任务中表现出色的推理模型,而且它只会变得更好。但它并非在所有方面都比以前的模型更好。

正如OpenAI 多次提及的,「OpenAI o1」的能力更多是在推理上。对于复杂的推理任务来说,该模型代表了AI 能力达到新的水准,这也是该公司将这个系列模型命名为OpenAI o1 的原因,以表示「将计数器重置回1」。

接下来,我们可以来看看此次推出的「OpenAI o1」有哪些亮点。

1.o1-preview 达到博士水平

o1-preview 模型旨在透过投入更多时间思考和完善其回应来处理具有挑战性的任务,类似于人们处理复杂问题的方式。

在性能测试中,这种方法使模型完成了GPQA Diamond 测试,在物理、化学和生物学等领域的表现接近博士生的水平。

而在数学方面,o1 模型在2024 年美国数学邀请赛(AIME)中正确率最高可达83% ,让o1 跻身全美前500 名优秀学生之列。

此外,o1 模型在编码方面表现出色,该模型在程式竞赛(Codeforces)中获得了1,673 的高分,排名第89%,展示了其处理多步骤工作流程、调试复杂程式码和产生准确解决方案的能力。不过,o1-preview 获得的分数为1258,略低于o1,不过远远高于GPT- 4o (Elo 评分为808 ,仅超过11% 的人类竞争者)。

在国际数学奥林匹克(IMO) 资格考试中,o1-preview 解决了83% 的问题,而GPT-4o 仅正确解决了13% 的问题。这表明o1 在特定专业领域的能力已经达到了一个新高度。

2.更精简的o1-mini

结合o1-preview,OpenAI 还推出了o1-mini 模型,这是一个更精简的版本,旨在提供更快、更便宜的推理能力。

虽然主要针对程式设计和STEM(科学、技术、工程和数学)任务进行了最佳化,但o1-mini 仍然提供强大的效能,特别是在数学和程式设计方面。

在高中AIME 数学竞赛中,o1-mini 分数为70%,几乎与o1-preview 的74% 相当,同时推理成本显著降低。

它还在编码评估中表现出色,在Codeforces 上获得了1650 分的Elo 分数,高于1673 的1258 分,跻身前86% 的程式设计师之列。

在回答速度上,o1-mini 的表现也较好。 OpenAI 表示,在文字推理问题的测试中,o1-mini 回答正确答案的速度大约是o1-preview 的3-5 倍。

总的来说,o1-mini 在非STEM 的事实知识任务上表现较差,但在需要智慧和推理的任务中却可以有不错的表现。

3.专家对「OpenAI o1」的看法

网路上也有许多有关o1-preview 的乐观但谨慎的实践报告。华顿商学院教授Ethan Mollick 在其部落格中分享了一篇实作文章,详细介绍了他对新模型的实验。他表示,「需要明确的是,o1-preview 并没有在所有方面都做得更好。例如,它并不比GPT-4o 更好。但对于需要计划的任务,变化相当大。」

Mollick 举了一个例子,要求o1-preview 建立一个教学模拟器,「受到下面论文的启发,并考虑教师和学生的观点,使用多个代理和生成式人工智能」,然后要求它构建完整的代码,它产生了一个Mollick 觉得令人印象深刻的结果。

Mollick 还向o1-preview 提供了8 个填字游戏线索,并翻译成文本,该模型花了108 秒的时间通过多个步骤解决了这个问题,得到了所有正确的答案,但捏造了Mollick 没有提供的特定线索。

鉴于他对新模型的经验,o1 的工作方式似乎与GPT-4o 非常相似,但在循环中迭代,这是所谓的「代理」AutoGPT 和BabyAGI 计画在2023 年初进行的实验。

「OpenAI o1」可以用了吗?免费吗?

自发布后第一天起,ChatGPT Plus 和Team 用户就可以在ChatGPT 中使用「OpenAI o1」,而Enterprise 和Edu 用户将在下周获得存取权限。这些模型也可以透过OpenAI API 供有资格使用第5 层API (已经支付1,000 美元并且超过30 天)的开发人员使用,但将适用初始速率限制( 20 次请求/分钟)。

对于有些用户想知道的「OpenAI o1」是否可以免费使用的问题。答案是目前是不可以的,但OpenAI 计划在未来将存取权限扩展至ChatGPT Free 用户,也就是说,在不久后的将来,不用付费也可以使用「OpenAI o1」。

目前,o1-preview 的每周速率限制为30 个讯息,o1-mini 的每周速率限制为50 个。此外,据OpenAI 定价,o1-preview 在API 中的使用费用为每百万个输入token 15 美元,输出token 则高达60 美元,输入成本是GPT-4o 的3 倍(每百万个输入token 5 美元),输出成本则是4 倍(每百万个输出token 15 美元)。

如果您想要开始使用,可在ChatGPT 右上角切换自己使用的AI 模型。

「OpenAI o1」安全吗?

根据OpenAI 对安全的承诺,这两种模型都采用了新的安全训练方法,增强了它们遵循安全和对齐准则的能力。

OpenAI 强调,o1-preview 在最严格的越狱测试之一中取得了令人印象深刻的84 分,比GPT-4o 的22 分有了显著提高,更好地处理不安全提示并避免产生不适当的提示内容。

作为更广泛安全工作的一部分,OpenAI 已与美国和英国人工智慧安全研究所达成协议。这些合作伙伴关系包括允许早期存取o1 模型的研究版本,以帮助评估和测试未来的人工智慧系统。

OpenAI 的安全工作还包括全面的内部治理以及与联邦政府的合作,并透过公司安全与安保委员会的定期测试、红队和董事会级监督来加强。

「OpenAI o1」的缺点

除了收费更高,仅在特定应用中具有优势外,「OpenAI o1」还具有以下两点局限性:

1.反应时间更长

据《Tech Church》报导,「OpenAI o1」模型有时需要超过10 秒的时间才能回答问题,且仍可能产生幻觉。

2.表现不稳定

OpenAI 也指出,o1 在部分游戏如圈圈叉叉(井字棋)中表现不稳定,并且经常不愿承认自己无法回答的情况。

总结

o1-preview 和o1-mini 模型是推理和解决问题的强大工具,尽管目前存在不少问题,但OpenAI 承诺将进行定期更新和改进,包括添加浏览、档案和图像上传以及函数呼叫等功能,这些功能目前在API 版本中尚不可用。

展望未来,OpenAI 将持续开发GPT 和o1 系列,进一步拓展AI 在各领域的能力。随着公司致力于提高这些模型在不同应用程式中的实用性和可访问性,用户可以期待不断的进步。

本文链接地址:https://www.wwsww.cn/rgzn/27664.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。