AI绘画主要依靠三种技术模式实现

heshao1 · 发表于 2024-8-13 11:08:58

　　“图像风格迁移技术指的是图像处理算法通过对输入的真实图像内容特征和对参考的艺术图像风格特征的提取，实现真实图像内容特征和艺术图像风格特征的融合，从而生成新的艺术图像。”董未名举例，如果将美国旧金山艺术宫的外景照片和印象派创始人莫奈绘制的作品，通过图像风格迁移技术进行融合，就能得到一张看起来像是由莫奈绘制的美国旧金山艺术宫的绘画作品。最初的AI绘画采用的正是这种技术。

　　不过，在董未名看来，图像风格迁移技术大多依赖的是生成式对抗网络（GAN）算法，它最大的问题是生成的绘画作品艺术性不强，笔触和构图让人觉得与真实的绘画有差距，所以长久以来，AI绘画一直“籍籍无名”。

　　当图像风格迁移技术还在挣扎于输出作品的审美问题时，图文预训练模型的出现，加速了AI绘画的崛起。

　　~~该外部链接已失效，文章作者登录实名后才能恢复访问~~，只要输入一句话或者上传一幅风格明显的图片，算法就能将图像特征和文字特征‘对齐’。生成的绘画作品的内容特征和上传图片的内容相似，艺术性也比图像风格迁移技术生成的图片强很多。”董未名举例，比如支撑图文预训练模型的可对比语言—图像预训练（CLIP）算法，就是利用图文特征“对齐”的能力，再结合已有的生成模型，实现“以图生图”或者“图+文”生图。

　　不过，董未名坦言，图文预训练模型的推广也存在一些争议，有部分人认为，该模型在训练前期，需要用大量的图形处理器（GPU）进行数据训练，耗电量大、成本很高，而该模型的应用场景却不够清晰。但也有人认为，也许该模型未来可以打造为通用的人工智能模型，用它完成更多的算法作业，只是这还需要时间的验证。

　　诚然没有一项技术是完美的，这也为人类探究更先进的技术提供了无限动力。当下最流行的扩散模型便是其中之一。

　　“目前最新的AI绘画技术采用的就是扩散模型，这种模型可以把一个随机采样的噪声输入模型，然后尝试通过去噪来生成图像。”董未名表示，扩散模型也存在弱点，由于模型对图片内容识别的能力不足，或者难以完全理解识别文字的意义，以及训练数据的偏差，有时便会生成“四不像”的作品。此外，扩散模型生成图片的速度比较慢，目前还达不到实时生成图片。

账号		自动登录	找回密码
密码			开放注册

AI绘画主要依靠三种技术模式实现

浏览过的版块