ChatGPT推出语音对话及上传图片功能，修车、读报表也难不倒它！

OpenAI 于昨日 (25) 公告，其 AI 语言模型 ChatGPT 即将推出全新的语音及图像功能，用户将能透过语音对话，亲自向其描述自己的问题；另外也能上传并涂鸦图片，标记重点并帮助其了解自己所欲询问的问题。该功能将在未来两周内于付费版 Plus 及企业版上架。

OpenAI 推出语音及上传图片功能

OpenAI 宣布将把语音及图片搜寻功能加入其 AI 语言模型 ChatGPT，让原先仅基于文字对话的该产品，功能及互动性变得更加强大。

此举被视为是全球科技巨头之间有关「生成式 AI」战争的一部分，包括 Google 的聊天机器人 Bard 及 Apple 仍在开发中的 Apple GPT 等。

首先，ChatGPT 结合了自家的 LLM (大型语言学习模型) 及语音对话助理技术，用户能与其进行简单的口头对话及询问问题，不必在忙碌时，还要打字向其询问，此举节省了时间并提升了生活效率。

新闻稿中举例，用户能口头要求 ChatGPT 编出一则睡前故事，并用一些声音提示来指导其描述，而 ChatGPT 也能透过用户所选择、高达五种不同的声音作回答。

OpenAI 补充：

这项全新的语音技术，将能从几秒内的人类声音中合成高仿度的拟真声音，为许多富有创意的应用程式敞开大门。

接着在图像功能方面，用户将能透过拍摄并上传图片，要求 ChatGPT 解释它是什么、有什么功能或如何使用它。

此外，用户必要时也能涂鸦重点区域，以强调并帮助 ChatGPT 更贴近自己的问题。

新闻稿中也说道，ChatGPT 还能帮助用户检查脚踏车损坏的原因、查看冰箱食物来规划今日菜单、更甚至是分析工作上复杂的图表数据。

据悉，语音功能最初将仅在 ChatGPT 手机版的 Android 及 iOS 系统上推出，而图片搜寻将登陆所有平台。

用户将能前往应用程式中的「设定」选单，接着前往「新功能」并选择加入语音对话，即能开始使用。

上述功能将优先在未来两周内，于 Plus 及企业版等付费用户抢先推出，并将陆续提供给其他用户及开发者使用。

关于使用上的隐忧与风险，新闻稿中也提到，ChatGPT 本身能力仍有其局限性，呼吁用户不要使用该产品进行研究领域及专业技术上的应用。同时，也不要依循其指示，在未经完整验证的情况下，应用于高风险行为。

此外，针对语音功能，Open AI 则表示：

此举也带来了新的风险，包括犯罪者借此假扮或伪装成公众人物进行欺诈行为等。

不过，就在此前，GPT 3.5 及 4 等系列产品，都遭到一篇在各大社群平台流传的研究论文质疑，指出两产品的功能及品质在 6 月份的更新后便迅速下降，包括回复的精准性或正确度，用户对此纷纷表示有感。

本文链接地址：https://www.wwsww.cn/rgzn/21852.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。