DALL·E 是OpenAI 开发的AI 绘图模型,专门用于生成AI 图像以填补ChatGPT 中只能输入及生成文字的限制。DALL·E 能够通过文字指令的描述来生成、编辑并修改各种图像。本文将带您深入了解DALL·E 的功能和应用,介绍DALL·E 背后的运作原理及各种常见问题。
DALL·E 是什么?和ChatGPT 有分别吗?
DALL·E 采用了和ChatGPT 一样Transformer 神经网络算法作为该AI 绘图工具的核心结构。这种架构下的机器学习(Machine Learning)将用家输入的文字描述进行分析和编码,然后生成对应的图像。不同于ChatGPT 只处理文本的限制,DALL·E 的Transformer 结构透过特定的训练理解文字和图像之间的关连来实现文字到图像的转换和生成。除了生成图像外,用家可以在DALL·E 里上传图像,DALL·E 可以根据输入的指令(prompt)生成超出原本图像边界的绘图,甚至可以在图像中添加阴影和修改细节。
DALL·E 发展史:从第1代到第2代
DALL·E 1 模型利用Discree Variational Auto-Encoder (dVAE)以生成256×256 的图像。dVAE 从VQ-VAE(Vector Quantization Variational Auto-Encoder)进化而成,是生成模型(Generative Models)在利用离散潜在表示(Discrete Latent Representations)上的一大改进。原生的VQ-VAE通过结合VAE框架及向量量化(Vector Quantization)来解决后驱崩溃(Posterior collapse)等问题,并可以更有效地利用潜在空间(Latent Space)来捕捉有较意义的特征。
dVAE通过对编码和解码过程进行了改进,并引入更复杂的方法来编码图像和生成离散表示来改进模型。DALL·E1的模型训练步骤为
-
图像编码器(Image Encoder)将输入的图像转变为32x32的嵌入网格(Embeddings)来代表视觉特征。这些嵌入被量化为8000个代码词并形成视觉代码簿(Visual Codebook)
-
将已编码的Text Token和Image Token串接成单一数组(Array)
-
进行预测并从前面的Text Token中预测下一个Image Token。
其后在预测过程中,dVAE通过学习的编码本预测Image Token,然后使用dVAE解码器解码Image Token,并使用CLIP模型评级器选择最佳图像。
CLIP 是一个由OpenAI 推出的模型,其功用为将图像和文本编码成相似的嵌入向量。该模型的训练数据集来自WebImageText,数据包含从互联网获取的各种图像和其相关标题文本,总数约4亿条。CLIP 模型使用对比学习(Constrative Learning)进行训练,通过最大化相对应图像和文本之间的余弦相似度(Cosine Similarity)来编码图像和文本的嵌入向量。
在DALL·E 2 的模型训练中,首先模型会为文本直接生成一个CLIP 模型的文本嵌入,接着将文本嵌入生成为图像嵌入,最后扩散解码器(Diffusion Decoder)通过图像嵌入生成图像。此方法可以在保留文本嵌入中的风格和语义的情况下变化图像。
Source: vaclavkosar.com
DALL·E 功能概览
DALL·E 的主要功能分为两个部分,以文字生成图像(Generate)及上传并编辑图像(Edit) 、填补空白(Out-painting)和重制变化版(Variations)。相较于其他的AI绘图工具,DALL·E 的界面亦相对比较简单易用,用家可以较易上手。以下链圈子为你详细介绍DALL·E的主要功能:
1. 文字生成图像(Generate)
与其他AI绘图工具一样,DALL·E的第一个功能为以文字生成图像。用家只需要在输入栏输入指令(Prompt),DALL·E便可以为你生成对应的AI图像。你亦可以使用「Surpries Me」来指示DALL·E生成随机的指令。按下「Generate」后AI会根据指令生成六张图像,按下其中一张你便可以得到一张1024x1024像素的图像。
2. 重制变化版(Variations)
当你使用文字生成图像后,你可以选择任何一像图像并重制变化版。按下界面上的「Variations」按键后,DALL·E会根据你的选项再生成五张额外的图像变化。除了使用由AI为你生成的图像重制变化版外,你亦可以上传自选的图像进行变化重制。首先在界面上选择「Upload an image to edit」,上传后选择「Generate Varations」,DALL·E便会为你生成自选图像的变化版。要注意的是,用家并不可以使用额外的文字指令来指示DALL·E如何为你的图像重制变化。
3. 编辑图像(Edit)
虽然重制变化版并不能够使用文字指令,DALL·E的编辑图像功能容许用家并用文字指令。上传图片后选择「Edit Image」并选择橡胶图案「Eraser」,输入指令指示你希望DALL·E如何重制你擦去的空白位,AI便可以为你生成不同变化的图像细节。以下为Dallery.Gallery的重制示范。
Photo:
4. 填补空白(Out-painting)
DALL·E不单可以为你生成图像内的空白位变化版外,其一功能「填补空白」可以生成图像以外的图像填充。
Photo:
如何开始使用DALL·E?
步骤1:
您需要有OpenAI 的帐户来使用DALL·E。链圈子(www.wwsww.cn)为你介绍如何在香港地区开设OpenAI帐户。
步骤2:
进入DALL·E 的网站(https://labs.openai.com/)并根据本文上述的功能概览简介开始使用DALL·E。
步骤3:
现时DALL·E 并未有提供免费试用,想使用DALL·E 的用家需要购买credit 来生成图像。
DALL·E 收费
现时DALL·E 收费为每115 credit 约15美元。DALL·E 会根据图像的解像度来决定图像生成需要使用的credit 数量。以下为各解像度的美元收费
-
256×256 需要$0.016
-
512×512 需要$0.018
-
1024×1024 需要$0.02
DALL·E 常见问题
Q1: DALL·E 有使用限制吗?
A1:
-
在每23.5小时的使用窗口中,你只可以输入50个指令及生成500张图像
-
OpenAI有明确的内容政策,禁止有关政治和争议议题的图像。生成的图像亦不可以用于制造虚假新闻或构成骚扰
-
不能使用公众人物创建指令
-
不能上传你没有使用权限的图像
-
不能上传任何人类面孔的图像
Q2: DALL·E 是免费的吗?
A2:
DALL·E 只为在2023年4月6日前创建的帐户提供每月免费credit。每月的免费credit 都会在该月后失效。除此以外,新用家需要购买credit 使用DALL·E。
本文链接地址:https://www.wwsww.cn/rgzn/21236.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。