Gemini 2.0 Flash实测|真的懂推理!1秒生成最佳解

Google推出最新AI模型Gemini 2.0 Flash。然而,实际上进步多少?本文将逐一实测,并与ChatGPT的生成内容一较高下。

Google(谷歌)近日在AI Studio平台上推出一款名为「Gemini 2.0 Flash Thinking Experimental」的实验性人工智能(AI)模型,旨在提升AI在多模态理解、推理和程式码编写方面的能力。

更懂推理的AI:可以把大问题拆解成小问题

据Google描述,这款新模型在经过训练后,可产生模型在回覆时会经历的「思考过程」。因此,Gemini 2.0 Flash Thinking的回覆,会比Gemini 2.0 Flash基础模型更能发挥推理能力。

更懂推理的AI:可以把大问题拆解成小问题

Google DeepMind 首席科学家Jeff Dean 于社群平台X发文进一步表示,该模型还受益于更快的Gemini Flash 2.0 模型带来的速度。 Dean也展示了Gemini 2.0 Flash Thinking 如何透过一系列步骤「思考」来回答物理问题,然后再提供解决方案。

从其示范影片来看,模型的推理过程与人类执行「推理」方式仍有差异。但关键是,这已经展示AI有能力将人类下的指令分解为「更小的任务」,从而产生更理想的结果。

事实上,Google于北京时间11日深夜发布的Gemini 2.0 Flash实验版,表现确实超出上一代的最高版本1.5 Pro不少,不但速度更快,面对问题的生成内容品质也大幅进步。以下为《数位时代》的实测结果:

测试一:「鸡兔同笼」数学题


鸡兔同笼示意图。图/ Grok 2 生成

「鸡兔同笼」几乎是所有学生必定会遇到的一次方程式数学考题。假设题目如下:

一个农场养了鸡与兔子共15只,兔子与鸡加总后共有40只脚,请问鸡与兔各有几只?

以下为Gemini 2.0 Flash Experimental回答:

方法一:假设法 (最常用)
假设全部都是鸡: 如果15只全部都是鸡,那么总共有15 * 2 = 30只脚。

计算差距:实际上有40只脚,比假设的少了40 - 30 = 10只脚。

转换:一只兔子比一只鸡多2只脚(4 - 2 = 2)。
计算兔子数量: 因为少了10只脚,而每只兔子可以补上2只脚,所以兔子有10 / 2 = 5只。

计算鸡数量总共有15只动物,兔子有5只,所以鸡有15 - 5 = 10只。

结论:兔子有5只,鸡有10只。

方法二:方程式法 (代数解)

设定变数:假设鸡有x只,兔子有y只。

建立方程式:
头的数量:x + y = 15
脚的数量:2x + 4y = 40

解方程式:
从第一个方程式得到x = 15 - y
将x代入第二个方程式:2(15 - y) + 4y = 40

简化方程式:30 - 2y + 4y = 40

继续简化:2y = 10

解出y:y = 5

将y代回x = 15 - y,得到x = 10

结论:兔子有5只,鸡有10只。

测验一小结:

相同的结果,其实提供给ChatGPT 4o会直接得到代数解法的推论过程。

但差异在于,Gemini 2.0提供三种以上的推论方案,其中第一种为国小以下可用的「假设法」,第二种才是国中以上的代数解。换句话说,AI已有假设提问者未必具有代数观念,因此进一步提供多种解题方案。

此外,Gemini 2.0对于自然语言的掌握度更高(更会说人话),因此推论过程说明的更仔细,对于没有数理基础的学生而言,应更有解题上的参考价值。

测试二:「电车难题」的法律见解


电车难题示意图。图/ 原作者:McGeddon

除了不会就是不会的数学题,Gemini 2.0对于抽象的伦理或法务问题能有见解吗?答案是可以。题目如下:

一辆失控的列车在铁轨上行驶。在列车正行进的轨道上,有五个人被绑起来,无法动弹。列车将要碾压过他们。你站在改变列车轨道的操纵杆旁。如果拉动此杆,则列车将切换到另一条轨道上。但是,另一条轨道上也有一个人被绑着。你有两种选择:

1. 什么也不做,让列车按照正常路线碾压过这五个人。
2. 拉下操纵杆,改变为另一条轨道,使列车压过另一条轨道上的那个人。

请问就法规层面,以上哪个选项更理想?

以下为Gemini 2.0 Flash Experimental回答:

这个问题并没有简单的答案,尤其在法律层面上更是复杂。以下我将从法律的角度来分析这两种选择,并说明为何没有一个绝对「理想」的答案:

选项一:什么也不做,让列车碾压五人

法律观点:在大多数法律体系中, 「不作为」通常不会构成犯罪,除非法律有明确规定必须采取行动的义务。例如,消防员有义务救火,医护人员有义务救治病人。在电车难题的情境中,你原本并没有责任去阻止列车,因此,若你选择什么都不做,法律上通常不会追究你的责任。

道德争议:虽然法律上可能没有责任,但在道德层面上,许多人会认为你眼睁睁看着五个人死去,是一种道德上的缺失。

选项二:拉下操纵杆,改变轨道,使列车碾压一人

法律观点:此选项涉及「主动行为」,你主动选择牺牲一个人来拯救五个人。这在法律上可能会构成犯罪,例如「杀人罪」。即使你的目的是为了拯救更多人,但你仍然直接导致了一个人的死亡。

例外情况:在极少数情况下,法律可能会考虑「紧急避难」原则。此原则允许在为了避免更大的损害时,采取一些看似违法的行为。然而,要符合紧急避难的条件非常严格,通常需要证明:

  1. 存在迫在眉睫的危险。
  2. 没有其他可行的解决方案。
  3. 所造成的损害必须小于所避免的损害。

在电车难题的情境中,是否符合紧急避难原则存在争议。法律很难界定「五条人命」是否一定比「一条人命」更重要。此外,你是否真的「没有其他选择」也可能受到质疑。

总结:
从法律层面来看,两个选项都存在争议,没有一个绝对「理想」的答案:

选项一(不作为): 法律责任较小,但可能面临道德谴责。

选项二(主动作为): 可能触犯法律,但或许在某些极端情况下可主张紧急避难。

测验二小结:

就此问题而言,若使用GPT-4o,会无法辨识题目,无法得到解答。但若切换到最新的o1模型,ChatGPT的结论则未有定论。但有解释「行为与不作为的区别」,拉动操纵杆可能会被视为积极行为;若不作为,除非有特定的法律义务,否则不作为通常不会构成犯罪责任。

其生成品质可说雷同,但在聚焦争议问题的症结上,仍是Gemini 2.0的阐述方式相对清晰。

结论:Gemini 2.0 Flash优于GPT4-o / o1

总结而言,推测Gemini 2.0 Flash基于对繁体中文的深度学习较为完整,因此似乎更能理解使用者的提问,因此可提供更为理想的生成结果。

除了语言能力较佳之外,Gemini 2.0 Flash对于资料搜集的能力也较为出色。以上述测验三为例,后续查证2024年手摇饮估计可达1300亿元的数据,为经济部统计处于8月时提供。因此确有其事。反观,GPT4-o / o1在数据搜集阶段就有误,且并未依照数据推论人均杯数。

而在假设能力上,Gemini 2.0 Flash在测验一更为突出(假设使用者未必懂代数),在测验三,也在1300亿元中假设可能仅7成为饮品本身产值。

但话说回来,本次实测仅以三题判断,确实可能有遗漏ChatGPT强项之处,例如:难度更高的数理、物理难题测试,抑或是编写程式码的能力等等。

而AI工具目前堆陈出新不断,今天落后的模型很有可能下一季就超车。因此,呼吁使用者仍必须透过自己的使用习惯,来测试各种AI的适用程度。

本文链接地址:https://www.wwsww.cn/hqfx/29710.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。