LLM成本太高!SLM小型语言模型是下一波发展重点?两者有何差别?


SLM能有效应对专业需求,同时降低敏感资料风险。有鉴于LLM成本过高及准确度不稳定,企业逐渐寻求更灵活的小型语言模型作为解决方案。

小型语言模型是下一波发展重点?

自从ChatGPT 问世以来,「大型语言模型」(LLM, large language model)令各大企业趋之若鹜,无不希望打造一个企业自主AI,毕竟参数量愈多,AI 软体的效能就愈好,也就能够执行更加细致的任务。

大型语言模型的应用情境固然令人惊艳,但它们也非常昂贵,并且有相对复杂伦理、隐私问题。因此,调研机构IDC 预测,2025 年生成式AI 的下一波发展,可能是可以在使用上更弹性的「小型语言模型」(SLM)。

LLM 的局限:成本过高、准确度不稳定

根据调研机构Info-Tech 于2024 年做的全球调查,受访企业在投资生成式AI 解决方案时,最优先考虑的重点包括隐私和安全(65.43%)、成本效益(59.57%),再来就是准确性和可靠性(57.71%)。

在成本方面,训练和管理生成式AI 模型既复杂又昂贵,需要耗费大量的计算资源和高速网路,以及无数的记忆体。 Forrester 的AI 和机器学习分析师库兰(Rowan Curran) 表示,先进的语言模型训练成本超过数百万美元。在市场上,近期也发现LLM 应用程式的订阅价格上涨的情形,如OpenAI 最近宣布推出每月200 美元的Pro 计划,其他竞争对手也可能会将价格提高到这个区间。

加上,LLM 生成回答的准确度仍然有待加强,有时会产出偏离企业当下需求的回覆,SaaS 平台Responsive 执行长衫达(AJ Sunder)指出,OpenAI 等企业的LLM 在本质上是「黑盒子」,问题在于无法解释如何得出最终答案,而这对于强调准确性、一致性和合规性的企业来说,就会是一个隐忧。

并非所有企业都需要LLM,SLM 提供更大的灵活性

相对来说,SLM 就没有那么多限制,可以更灵活地应用。

由于SLM 不是为通用型的任务设计,而是在开发时针对特定领域的资料进行训练,这种特性使SLM 能够有效处理专业领域的需求。此外,另一个关键优势是资料保存在防火墙域内,因此SLM 不会被外部敏感资料影响其训练过程。

另外,因为SLM 只承担一小部分的任务,其结果更容易被解释,因为使用者更容易掌握输出结果背后的来源和基本原理,这对于商业决策需要追溯到源头的受监管产业尤其重要。

最后,SLM 的模型较小,因此执行速度通常较LLM 更快,对运算需求也比较低,所以可以安装在个人的手机或者电脑上;SLM 也能够在离线状态继续运行,这对于没连接网路或网路连接不稳定的场合非常重要,大幅提高工具的可近性。

各大科技巨头,都在投入SLM

2024 年以来,AI 巨头如苹果、微软、Meta 陆续开始发布参数量较少,但仍具有强大功能的「小型语言模型」。

像是微软就推出小型语言模型「Phi-3」,设计目的在执行更简单的任务,让资源有限的公司也能够使用;Facebook 母公司Meta 也正积极投入开发一种新的小型语言模型,该模型与手机设备相容,旨在运行设备上的应用程序,同时减少模型推理任务期间的能耗;苹果同样研发OpenELM,希望可以打造适合在市售笔电甚至智慧型手机上执行的AI 模型。

LLM 和SLM 使用并不冲突

《Forbes》指出,LLM 和SLM 的使用不互斥。在实际运用上,企业可以采取混合方式运用SLM 和LLM──LLM 可以提供更广泛的背景资讯,SLM 可确保精准的执行。

IDC 预测,2025 企业将因应场域需求灵活运用SLM,而未来大世界模型(LWM)也值得关注,换句话说,多模型应用将是企业发展AI 模型的常态。

本文链接地址:https://www.wwsww.cn/hqfx/30827.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。