Stable Diffusion高级教程 - AIGC发展史和产品对比

前言

AIGC 相关的内容最近非常热，所以我也来蹭个热度。这篇是这个话题的第一篇，先介绍一下 AIGC 和相关的创作工具。

AIGC

AIGC 全文叫做「AI Gererative Content」，这是继专业生产内容（PGC, Professional-generated Content）、用户生产内容（UGC, User-generated Content）之后的新型内容创作方式。

AIGC 进入大众视野里程碑的一件事是去年 9 月初，下面这幅使用 MidJourney 生成的数字油画《空间歌剧院》:

在美国科罗拉多州博览会 (Colorado State Fair) 的艺术比赛中夺得了第一名，之后大赛评委并未对该幅作品进行改判，并认为即使它是 AI 生成的作品，也依旧配得上这样的成绩，这一新闻被报道后引发了圈内外的广泛讨论。

再之后，一个 B 站 UP 主使用 Midjourney，根据歌词含义生成的图片制作了万能青年旅店的作品《杀死那个石家庄人》火出了圈，接着很多 UP 主发布了类似的「但是每一句歌词都由 AI 作画」主题的作品，例如《Young And Beautiful》、《孤勇者》、《七里香》等。我也是从这个阶段开始关注到这个领域，当然那时候的理解还停留在 AI 绘画（txt2img，也就是输入文字，计算机会把它翻译成图像）这个小方向，其实现在再看，生成的内容的领域是非常广泛的。

通过 AIGC 这种创作方式，可以让我这种毫无绘画基础的非职业用户也可以创作出非常满意的作品。

AIGC 的主要创作工具

接着我根据时间线列出我认为非常重要的一些创作工具。

DALL-E

2021 年 1 月，OpenAI 推出了 DALL－E 模型，通过 120 亿参数版本的 GPT-3 Transformer 模型来理解自然语言输入并生成相应的图片。但是它的推出主要用于研究，所以访问权限仅限于小部分测试版用户。这个模型不稳定对于细节理解处理不完善，且会出现严重的逻辑或者事实错误，但是作为开创者，还是得专门提出来的。

在发布 DALL-E 时还发布了 CLIP （Contrastive Language-Image Pre-training，对比图文预训练）。CLIP 是一种神经网络，为输入的图像返回最佳的标题。它所做的事情与 DALL-E 所做的相反 —— 它是将图像转换为文本，而 DALL-E 是将文本转换为图像。引入 CLIP 的目的是为了学习物体的视觉和文字表示之间的联系。

Disco Diffusion

Disco Diffusion 是 21 年 10 月开始开源的一个基于 diffusion+CLIP 的深度学习模型，输入文本便能生成图像画面。这个工具通常运行在 Google Colab 平台上，无需本地配置，所以对电脑配置不做要求，在浏览器里面运行即可。

下面是主创是艺术家兼设计师 Somnai 在项目开源时发布的效果图:

在实际使用中，它对于景色、主体以及画风方面的内容效果还是不错的，但是人物效果比较差。在 Somnai 加入到 MidJourney 后，这个项目就停止了更新。

DALL-E 2

2022 年 4 月，OpenAI 发布了新版本的 DALL-E 2 ，它是 DALL-E 的升级版本，另外能对所生成的图像进行二次编辑，现在即使是新用户也需要充值才能生成新图，我没有体验，只是通过官方 Ins 账号展示的动态侧面了解，不过目前现在还可以通过 Bing 体验: https://www.bing.com/create/

感受它生成的画作相对下面说的 2 种比较单一且简单。

MidJourney

MidJourney 的 v1 是 2022 年 2 月发布的，它火出圈是由于 22 年 7 月份的 v3 版本。

它的特点是综合能力比较全面，艺术性很强，非常像艺术家制作的作品，另外图像生成速度更快，早期主要是很多艺术家会借助 Midjourney 作为创作灵感。另外，因为 Midjourney 搭载在 Discord 频道上，所以有非常良好的社区讨论环境和用户基础。

第二次火其实就是今年 3 月份发布 V5, 官方说这个版本在生成图像的人物真实程度、手指细节等方面都有了显著改善，并且在提示词理解的准确性、审美多样性和语言理解方面也都取得了进步。

现在新用户已经不再可以免费生成图片了，需要订阅。就不演示了，我有一下两个经验:

如果你不了解怎么输入正确有价值的提示词，可以从类似延伸阅读链接 5 这样的网址去生成 prompt，类似网站很多
如果想成为 MidJourney 高手，你需要学会很多技巧，可以网上搜各种相关的文章和视频，例如延伸阅读链接 9 和 10 (当然官方文档也是要看的)

Stable Diffusion

2022 年 8 月，Stable Diffusion 开源，

Stable Diffusion 算法上基于 2021 年 12 月提出的潜在扩散模型（LDM / Latent Diffusion Model）和 2015 年提出的扩散模型（DM / Diffusion Model，它是基于 Google 的 Transformer 模型），所以名字里有 Diffusion，我猜 Stable 表示现在算法已经稳定下来了。

有必要先说一下这个项目让人疑惑的点，它是开源的，如果你自己研究过，可以从 Github 上找到三个同名的项目:

首先是慕尼黑大学机器视觉学习组 CompVis 写了这个论文，AI 视频剪辑技术创业公司 Runway 提供专业知识帮助实现了第一个版本，初创公司 StabilityAI 投钱，最终由 Stable Diffusion 推向主流市场 (其实现在已经是 Version 2 了)。所以现在只需要关注第三个项目就可以了。

SD 会在运行时将成像过程分离成 “扩散（diffusion）” 的过程 —— 从有噪声的情况开始，根据 CLIP 对图像和文本之间相关性打分，逐渐改善图像，直到完全没有噪声，这样就逐步接近所提供的文本描述。具体的原理可以看延伸阅读链接 8.

SD 可以在短短几秒钟内生成清晰度高，还原度佳、风格选择很广的图片，它最大的突破是任何人都能免费下载并使用其开源代码，不需要像 MidJourney 和 DALL-E 那样把它作为云服务付费用。

Stable Diffusion XL

目前 SD 最让使用者苦恼的 2 个缺点:

需要输入非常长的提示词 (prompts)
对于人体结构的处理有瑕疵，经常出现动作和人体结构异常

2023 年 4 月，Stability AI 发布了 Beta 版本的 Stable Diffusion XL ，并提到在训练结束后参数稳定后会开源，并改善了上述的 2 个缺点。

MidJourney 和 Stable Diffusion 的对比

首先要说明的是 AI 绘图是有高度的随机性和风格化的，即便你有比较准确的提示词也许换个 seed 可以让结果反转，其实不好直接对比。我这里只是在侧面来对比:

价格。MidJourney 毕竟是为了盈利的，远不如自己部署到自己服务器的开销要低。SD 完胜
友好程度。MidJourney 新手友好，注册即用，相对的 SD 需要有一定技术背景，甚至可以说设计师或者艺术创作者自己不具备部署能力。SD 小胜
功能。SD 除了支持 MidJourney 全部功能外还支持填充修复、自定义模型。SD 小胜
对细节的控制。类似于苹果 (MidJourney) 和安卓 (SD) 的区别，MidJourney 是商业产品，你无法了解它的背后的原理和代码逻辑，所以可控性差、细节优化难 (甚至越调越差)，而 SD 由于是开源的且有强大的社区和相关的模型、扩展等，可以实现本地私有化部署，还能够精准局部调优，控制风格，SD 完胜的。
提示方法。Midjourney 是自然语言输入 (直接文字表达需求)，而 SD 是各种带权重的提示词输入。SD 的提示词本文是非常考验输入者能力的，Midjourney 小胜。
效果。总体上觉得 MidJourney 的图更精致一点点，但是作为非算法开发者，我感觉 SD 目前输在模型训练的素材和方法上。MidJourney 小胜。
擅长的画风。 MidJourney 注重表达和对细节的渲染，而 Stable-Diffusion 偏写实，如果你想艺术创作，MidJourney 更好，如果你已经有具体的需求，SD 更好。

需要注意，上面提到的这些产品都是基于同样的底层原理的 Diffusion 模型，只是在产品化的路线上不同，但我目前更看好 SD 的未来发展 (要不然也不会专门写个专题😋)。