AI 生成艺术爆发背后主要的技术原因是 Diffusion Model(扩散模型)在这两年突破了多年以来的技术瓶颈,结合已经发展得很成熟了的文本语言模型 GTP-3,带来了可用性极高的文本生成图片工具。
上一代 AI 生成艺术的基于 GAN(生成对抗网络,参见 GAN 的发展简史),简单来说就是使用两个神经网络:一个作为生成器、一个作为判别器,生成器生成不同的图像让判别器去判断结果是否合格,二者互相对抗以此训练模型。
研发 AI 生成艺术工具需要大量的「数据」来训练模型,可以说对于 AI 来说「技术」大家最终总会趋于接近,而「数据」才是最重要的资源,对于大公司而言最佳的环境就是对任何艺术作品都进行严格的法律保护,不允许用作 AI 模型的训练,这样大公司就可以运用其资金优势购买艺术作品版权用作数据集制造出效果最好的的 AI 艺术生成工具,这样大公司就可以垄断 AI 艺术生成工具,而垄断的成本由谁支付呢?当然是由创作者们支付,这样创作者只能面对必须高价购买大公司的 AI 工具或者被别的购买了 AI 工具的创作者淘汰的场面。
这在其他领域已经发生过了,现在任何人都能从网络得到上免费开源的可用性极高的人脸识别 AI 工具,因为人脸照片是非常易得的数据源。而医药研发的 AI 工具则被少数的大公司垄断,因为没有人能轻易得到昂贵的医药研发数据。
并且人们几乎不可能去判断一个巨大的数据集一定用了某张图去训练,而人类也很难去分辨一张图是否是使用 AI 去创作或者有 AI 参与创作,也就是说只能当做普通作品去看待,看最终的作品有没有侵犯版权。
与版权相关的另一个问题是,AI 生成艺术工具可以取代视觉中国、Shutterstock、Getty 这样的图库,事实上相比画师们他们才是对 AI 版权的法律判断影响更大的因素,AI 生成工具非常有机会取代他们,版权是唯一的问题,拥有大量图片版权的他们会倾向于阻止 AI 使用图片训练模型。
目前生成图片的 AI 除了生成插画,确实不太适合 UI 设计,因为 UI 设计非常的结构化,神经网络确实很难去「理解规则」,但现实中还会有神经网络与规则算法协作的办法,让 AI 生成「精确」的设计图理论上不存在问题。
AI 生成技术有一个不可能三角:质量、速度、多样性,目前的 Diffusion Model(扩散模型)着力在质量与多样性上,而速度则是个问题,所以目前的 AI 艺术生成工具的生成速度都非常慢,几十秒甚至几分钟才能出图,虽然比人手工画可快多了,但是由于生成结果的不可预期性,人们需要反复尝试,体验不佳,接下来随着 AI 生成艺术工具的发展,速度一定会得到提升,当能做到输入内容一秒内就能预览到多个结果时,AI 生成艺术工具就会真正改变艺术创作流程。
另一个会影响 AI 生成工具体验的是提示词,也就是操作 AI 生成绘画的方式,现在 AI 生成艺术依赖的提示词还非常原始和难以操控,甚至写提示词的过程还被称为提示工程(prompt Engineering),得非常有经验才能生成想要的内容。为了更好的写提示词,还出现了 promptbase 这样贩卖提示词的市场,和很多生成提示词的辅助工具。
未来如何操作 AI 生成绘画将会是 AI 生成工具的重要提升点,除了直接增加提示词的可用性,二次编辑、根据画草图、编辑细节等功能都亟待实现,这些是工程问题,只要时间就可以实现。
可以想象会出现一个类似 Github Copilot 的 AI 帮助你编写提示词去操纵另一个 AI 生成图片
AI 生成艺术,会让更多的人去思考「艺术」的意义与「人与艺术的关系」。绘画不是一成不变的,它从诞生开始就与技术难解难分,化学工业给绘画带了丰富的色彩,让写实成为可能,给与绘画记录历史的意义。而印刷术让大众能学习绘画成为可能。摄影术又剥夺了绘画写实的价值,让绘画重新去关注内心描述与自我表达,而 AI 生成艺术或许会改变更多。
> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验