生成式AI是什么？一文了解Generative AI的原理及应用

相信大家对于Chatgpt 已经并不陌生，并且对于它强大的文本生成能力有所了解，实际上ChatGPT 中GPT 代表的是Generative Pre-trained Transformer ，其中的Generative 所指的是应用更广泛的一类工具— 即生成式人工智能（Generative AI）。

近十年迅速发展的生成式AI 结合了计算机科学和统计科学最前沿的模型和技术，并在广泛地在商业、金融、医疗、教育等各行各业有着几乎颠覆性的应用前景。人工智能带来的无限可能性也伴随着一些准确性方面的缺陷和伦理道德方面的考量。

生成式AI 是什么？和ChatGPT 有何分别？

生成式AI ，与遵循特定规则的传统人工智能不同，能够根据用户的输入来创造新内容。并且这些内容不限于文本，而是可以包括图像、声音，乃至于动画和3D 模型等其它类型。

生成式AI 属于深度学习（Deep Learning）的一个分支，意味着生成式AI 的工作原理是一类机器学习模型，通过学习数据中的规律或模式（Pattern）来生成新的内容。

目前，有一些模型使用大量数据资料进行训练，而称为基础模型（Foundation Models），其中非常有代表性的基础模型有ChatGPT 背后的基础模型GPT ，以及用于生成图像的Stable Diffusion 。如果再使用少量的特定数据进行基础模型的微调，就可以得到许多针对不同使用场景的AI 系统。

虽然ChatGPT 属于生成式AI 中在文本领域代表性的应用，让世界看到了生成式AI 的巨大潜力，但是对于机器学习领域不熟悉的人们容易将这两个概念混淆而产生误解。

从1960 至2023：生成式AI 的前世今生

生成式AI 最早能够追溯到1966 年由MIT 教授Joseph Weizenbaum 创造的第一个聊天机器人Eliza ，并实验性地应用在与心理治疗师交谈中。但受限于当时的计算机技术，过少的数据和并不先进的算法，这个生成式AI 的能力非常有限，科研人员更多地关注于开发能够严格遵循规则的系统。

直到近十年，生成式AI 又再次引起了人们的注意，并且自此飞速的迭代进步，直至ChatGPT 的问世使得人们再次意识到AI 的进步已经可以以假乱真。这一过程不是一蹴而就，而是伴随着多次学术界的里程碑式的进步以及相关工具的问世：

1986年，深度学习和神经网络中最关键的的后向传播算法（Backpropagation）由神经网络之父Geoffrey Hinton 提出，自此掀起对于神经网络研究的热潮。

生成对抗网络（Generative adversarial network, GAN）于2014 年由Ian Goodfellow 提出。GAN 通过两个神经网络相互博弈的方式进行学习，使得输出的结果能尽可能模仿训练集中的真实样本。由GAN 生成的图像和文本已经非常逼真。

在文本生成领域，2017 年Transformer 的提出成为这一领域的重大突破，后来分别在2019 年和2020 年推出的GPT-2, GPT-3，以及ChatGPT 都是基于Transformer 的架构。2022年是文本生成领域最受关注的一年，紧跟着ChatGPT ，其它科技巨头也不断推出自己研发的聊天机器人，例如Google 的Bard， Github 的Copilot 。这一系列生成式AI 背后都是基于依靠一类叫做大型语言模型的技术（Large Language Model, LLM）。

在图像生成领域，GAN 的统治地位持续了5年，学术界对GAN 的架构不断进行调整和优化，其中也有Nvidia 的研究人员，提出了Progressive GAN, Style-GAN 2 等，基于这些模型生成的图像在逐步拥有更高的清晰度和更好的细节。2021年，OpenAI 推出了DALL-E ，这一图像生成工具中，扩散模型（diffusion model）取代了GAN ，并结合了Transformer 而能够根据文本描述生成图像，DALL-E 2 在次年推出，需要更少的计算量，却能生成更好的图片。

音频生成领域中，DeepMind 在2016年推出的WaveNet 标志着音频生成模型的巨大进步。之后，在2022年和2023年，相当多成熟的音频生成工具推出，其中包括有Google 的AudioLM、MusicLM、Meta 的Voicebox 等。

生成式AI 的4 大核心技术

伴随着生成式AI 有许多常被提到的概念，其中有神经网络，深度学习，机器学习，大型语言模型等等，这些都是生成式AI 的核心技术，

1. 机器学习（Machine Learning）

机器学习是人工智能研究的一部分，这一领域的研究专注于开发算法使得计算机能够从数据中“学习”信息，并据此来对收到的新的数据进行推断和预测。

其中学习是这一技术的关键，传统的软件编程是给计算机明确的指令和步骤来完成特定的功能，而机器学习中不需要人对每一个任务进行特定和明确的定义。机器学习的模型遵循特定的算法，但是是自动从数据中学习到特定的规律，并据此来对新的数据进行推断和预测。

2. 神经网络（Neural Network）

神经网络作为人工智能领域的一种算法模型，它的基本思想是受到了生物神经系统的启发，尤其是我们大脑中的神经元的工作原理。这一模型中基本的构建单元是神经元，各个神经元之间互相连结，并对输入输出进行运算，并且逐层传递。

在生成式AI 中，神经网络通常作为其模型的核心构建。生成式AI 往往涉及图像、音乐、文本等在计算机系统中非常复杂的数据，而神经网络能够根据不同的模型设计来捕获和模拟这些复杂数据中的特征，这是其它传统机器学习模型很难达到的。

3. 深度学习（Deep Learning）

深度学习是特别针对多层（这就是称作深度的原因）神经网络的研究领域。如上文所说，生成式AI 所涉及的内容都不是简单的数字计算，浅层的神经网络并不能学习到这些复杂数据中的特征和结构，因而深度学习的发展对于生成式AI 所生成的内容是否有足够的细节和逼真度有很关键的作用。

4. 大语言模型（Large Language Model, LLM）

对于人类语言的研究一直是人工智能的一个热门领域，而大语言模型将这一领域推向了新的高度。其中的“大”，体现在模型的参数几乎都是在十亿乃至更多，用于训练模型的数据量也非常庞大（以GPT为例，GPT-3 的训练数据量相当于160 个维基百科）。研究发现只有到达如此规模的模型才会出现一些显著的性能提升和一些小模型中不存在的能力。

在生成式AI 中，大语言模型是一个重要的组成部分，它不仅能用于生成文本，还能和其它生成式模型结合。例如基于文字描述生成图像（Midjourney），或者创作音乐（MusicLM）。

生成式AI 应用范畴有哪些？6 大行业实用例子

在意识到生成式AI 的强大能力后，各个行业都在积极地引入AI 来提高生产力乃至于改变行业的形态。

1. 医疗

在医疗领域，生成式AI 能够根据患者数据来提供诊断和个性化的治疗方案。

今年4 月，微软和Epic Systems 宣布将把OpenAI 的GPT-4 人工智能语言模型引入医疗保健领域，聊天机器人能用简洁的语言概括出关于疾病核心信息，并根据追问和信息补充等进行进一步沟通，当然，它并不会取代医生的判断。其主要价值在于节约时间、提高效率，尤其是在那些医疗资源紧缺的地区，医护人员能够为病人提供更加合适的治疗方案。谷歌也在4 月中旬宣布将在有限的用户群体中测试其专门针对医疗的大模型— Med-PaLM 2。

医学影像领域也能从生成式AI 中得到改进。2022年，Nvidia 与伦敦国王学院使用生成式AI 创建了一套10 万份大脑合成图像的数据集，其中的原理是将真实的图像数据拆分并通过生成式AI 重组，用以解决相关医疗影像稀缺的难题。此外，还有研究在利用生成式AI 生成新的蛋白质序列来帮助医学研究。

2. 市场营销

在市场营销中，生成式AI 能够基于不同消费者的行为习惯，提供个性化的内容来吸引消费者的注意力。比如帮商品广告编写文案，或者是生成逼真且更有吸引力的商品图片，甚至可以是虚拟的试用体验（尤其是服装和化妆品行业）。

Heinz 和Nestle 在他们的广告视频中使用了生成式AI — 当然，看起来有点像借用了这次AI 热潮的噱头。

而对于营销人员，有时候他们会因为灵感枯竭而苦恼，生成式AI 也能够在这个时候帮助他们进行头脑风暴，提供大量可选方案来评估和选择。

3. 教育

个性化一直是生成式AI 系统中重要的特征，这一点在教育领域同样适用。生成式AI 可以根据学生的学习情况和需求，提供个性化的教学方案和辅导材料，帮助学生更好地掌握知识和技能。生成式AI 也可以自动批改作业和考试试卷，快速准确地给出评价和反馈，提高教学效率和质量。

这些对于教育资源充足的孩子可能并不是颠覆性的，但是对于有困难的学生来说可能很重要。例如Speechify ，作为一个文本转语音的生成式AI 工具，它能够使那些有视力障碍或阅读障碍的学生能比以往更轻松的学习来自任何来源的知识。

4. 客户服务

以前的客户服务往往是设置好的程序，意味着客户需要在一系列非常复杂的程序后（比如按顺序在手机上摁下123 ）才能得到自己想要的服务。而生成式AI 能够完全地颠覆这一现状，基于大语言模型的客户服务能够直接通过自然语言理解客户的需求并直接给予客户解决方案或者和相应的技术人员对接进行沟通。

著名客户关系管理软件提供商Salesforce ，推出了第一个用于客户服务的生成式AI — Einstein GPT，利用的OpenAI 的GPT 来帮助客服员工编写邮件和对客户问题进行自动回复。

5. 设计(绘画及影像生成)

在图像生成式AI 出来之后，画师、设计师似乎都面领着失业的风险，影响最大的莫过于为游戏行业提供原画和设计的相关从业人员。强大的图像生成AI 能够生成足以以假乱真的图像，或者按照指示生成不同风格的图片，而且生成的时间都是以秒计算，生产效率远远高于按天产出的设计师。

除了非常有名的图像生成工具Midjourney 和Stable Diffusion，设计师最常用的Photoshop 软件中也加入了生成式AI 功能。只需要选中特定区域，然后输入指示，这一工具就能通过分析周围的画面依照指示来快速填充、替换或者扩展图片中的元素。

6. 银行

生成式AI 已经能够替代有一定复杂程度的重复性劳动，这一点在银行的各个部门都有应用前景。在面对客户的市场和销售部门中，生成式AI 能利用自然语言模型更快地捕捉到客户的需求，分析客户的情绪来提供最适合的服务。投资顾问服务中，生成式AI 能够对不同投资产品的报告进行研究提炼，并对投资者生成个性化的配置建议。

但由于银行业对于安全性、可靠性的极高要求，生成式AI 还没有大规模地应用于银行业。

生成式AI 有什么好处？

1. 创造力

生成式AI 能够在灵感枯竭时给予大量的可能性作为参考，能让我们注意到未曾涉及的思考方向和切入口。这实际上是一个相互补充的过程，我们可以向模型提供更精确的提示来生成我们想要的内容，而模型的回复也会启发提问者向不同方向思考。

2. 交流自然

不像以前的内容生成的工具，生成式AI 不需要任何的技术知识，只需要我们像和普通人交流一样提出我们的需求，生成式AI 能够自动理解并生成内容。当然，必要的提示工程（Prompt Engineering）能够更好地帮助我们使用这些生成式AI 工具。

3. 自动化

自动化也是生成式AI 的一个突出优点，并且生成式AI 将自动化提升到了新的高度。过去的技术非常适合自动化重复性、数据量大的任务，但不太擅长处理认知、基于知识的复杂活动。而生成式AI 凭借其语言理解和生成能力，使得许多更复杂的任务拥有了自动化的可能性。

4. 个性化

生成式AI 由于能够处理足够复杂的输入，模型输出的结果也能够基于更丰富的输入而更加准确，因而也更加符合使用者的需求。

5. 易用

尽管背后的原理是复杂的机器学习，生成式AI 不需要用户具有任何机器学习的专业知识，只要会提问，几乎人人都能使用生成式AI 。而一个AI 模型能衍生出不同的应用程序，适用于不同背景的用户群体。

生成式AI 有什么限制？

1. 可靠性较低

生成式AI 模型并没有真正的对错概念，也不会进行真正的思考。例如大语言模型中常见的“幻觉” 现象- 大语言模型生成虚构的信息，却以肯定的口吻叙述。因为知道AI 模型不会撒谎，大多数用户也不会再去验证生成内容的真实性，这样会使得生成式AI 的可靠性大大降低。

2. 道德和伦理问题

虽然生成式AI 生成内容的能力可以提高生产力，但它也可能生成有害或令人反感的内容，并且对此一无所知。像Deepfakes 这样的工具可以创建虚假的图像，视频或言论，这些内容可能会助长传播仇恨言论或者导致歧视。

3. 过度依赖训练数据

对于一个机器学习模型而言，最重要的莫过于训练数据，业界一直有的"Garbage in, garbage out." 说法并不是空穴来风。而对于大语言模型一类的生成式AI，往往需要大量的训练数据，而这些数据中很难保证都是高质量且无害的。对于训练数据的依赖和无法保证的数据质量会给生成式AI 带来预料之外的风险。

生成式AI 常见问题

1. 如何评估一个生成式AI 的能力？

在选择各种各样的生成式AI 时，有没有一些通用的评价标准呢？Nvidia 提出了3 个关键的要求：

质素评价生成式AI 内容质素好坏的标准是生成的内容是否和真实存在的内容有明显区别，显然一个杂乱的图片和上下文不通顺的文章都是很糟糕的生成式AI 的内容。
多样性一个好的生成式AI 能够在保证质量的情况下提供不同的选择，而不是大量相似的内容。这取决于模型是否能从数据中捕捉到比较稀有的规律或模式。
速度在将生成式AI 部署到不同的应用中时，速度是非常重要的，例如图像编辑，用户需要有即时的反馈来进行选择。

2. 除了ChatGPT还有那些生成式AI？

Midjourney

Midjourney 是一款基于生成式AI 的绘画软件，能够帮助用户创作个性化风格的绘画作品。Midjourney 能够理解各种绘画风格和技巧，如插画、漫画、油画等。它支持3 种生成方式：文字生成图片、图片生成图片和混合图片生成图片。

不过Midjourney 的描述词只支持英文且有一定的门槛。而且Midjourney 免费账户只能生成25 张图片。

voice.ai

这是一个免费的实时AI变声器。其他功能包括语音克隆和自定义语音集成在你的应用程序中。它可以被流媒体人、游戏玩家和企业用于会议和通话。

MusicLM

这是来自Google的生成AI模型，可以通过文字直接生成高保真的音乐。无论文本描述是一段话、一个故事，或仅为一个单词，MusicLM 都能生成对应的音乐，还能根据文本中的年代、时间、地点等要素来调整音乐的风格。

本文链接地址：https://www.wwsww.cn/rgzn/21575.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。