Google推出原生多模态AI模型Gemini，挑战GPT-4

Google 宣布推出原生多模态 AI 模型 Gemini。Gemini 是 Google 迄今为止最强大、最通用的 AI 模型，可同时理解、操作和组合文字、程式码、音讯、图像和影片等不同类型的讯息。

Google 推出的原生多模态 AI 模型 Gemini

Google 推出的原生多模态 AI 模型 Gemini，强调是从头开始建立的多模组 AI 模型，就像人类有五感，同时接收和感知这个世界一样，而这也意味着 Gemini 可以像人类一样概括和无缝地理解、操作和组合不同类型的讯息，包括文字、程式码、音讯、图像和影片等等。这将比其他单独建构的文本、语音模型，最后再相连接产生的效果还要好的多。

Google 严格测试 Gemini 模型并评估其在各种任务中的表现。从自然影像、音讯和视讯理解到数学推理，Gemini Ultra 的性能在大型语言模型 (LLM) 研发中使用的 32 个广泛使用的学术基准中的 30 个上超过了当前最先进的结果。

其中最高阶的 Gemini Ultra 得分高达 90.0%，是第一个在MMLU (大规模多任务语言理解) 上超越人类专家的模型。

理解力到底有多强？在影片中，Google 展示了两张非常简单的手绘汽车图，问 Gemini 哪台跑地比较快，Gemini 回答「右边比较快，因为它比较符合空气力学」。

Gemini 提供三种版本，连手机都可用

为了满足大到资料中心等级，小到到行动装置等不同使用环境需求，Gemini 一共推出三个版本：

Ultra：最大、能力最强的模型，适用于高度复杂的任务。Google 正在进行一系列的安全测试，将会释出少量试用版给企业客户与开发者，估计明年推出正式版
Pro：可扩展各种任务的最佳模型，已经在英文版的聊天机器人 Bard 中使用
Nano ：最有效率的装置端任务模型，准备给 Pixel 8 Pro 手机使用

Gemini 将全面出现在 Google 的各项服务中

Google 的 AI 聊天机器人 Bard 已开始使用 Gemini Pro 的微调版本来进行更高级的推理、计划、理解等。这是 Bard 自推出以来最大的升级。它将在 170 多个国家和地区提供英语版本，并计划在不久的将来扩展到不同的模式并支援新的语言和地点。

Google 也将 Gemini 引入 Pixel。Pixel 8 Pro 是第一款运行 Gemini Nano 的智慧型手机，它支援 Recorder 应用程式中的 Summarize 等新功能，不需要连上网路，也能在手机上用 Gemini 来整理会议录音档的开会摘要内容。并从 WhatsApp 开始推出 Gboard 中的 Smart Reply，明年还会推出更多应用程式。

在接下来的几个月中，Gemini 将出现在更多的产品和服务中，例如搜寻、广告、Chrome 和 Duet AI。

Google 及 Alphabet 执行长 Sundar Pichai 表示：

这是我们迄今为止最强大、最通用的模型，我对未来以及 Gemini 将为世界各地的人们带来的机会感到由衷的兴奋。

本文链接地址：https://www.wwsww.cn/hqfx/23141.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

Google 推出的原生多模态 AI 模型 Gemini

Gemini 提供三种版本，连手机都可用

Gemini 将全面出现在 Google 的各项服务中

相关文章阅读