2022 虽然不是 ai 绘图这项技术诞生的时间,但却是到目前为止最爆火出圈的绘图元年。
AI 绘图(AI painting)就是以文生图(text2image),属于跨模态生成(Cross-modal generation)的一种:指的是将一种模态(文本、图像、语音)转换成另一种模态,同时保持模态之间的语义一致性。
如此爆火的 AI 绘图,在哪里可以生成效果惊艳的图呢?今天就给大家推荐 7 款 AI 绘画工具,详细介绍每一款工具的功能以及价格,希望你看完这篇能找到适合自己的 AI 绘画工具。
PicUP.AI
皮卡智能(PicUP.AI)在经过反复测试,终于正式上线了!相比其他 AI 作画神器,PicUP 速度更快,生成效果更好,最重要是全站中文,每 5 秒钟就能生成一张图。
用户可以发挥想象,输入文字描述后,便可生成 1:1 的图片。还有 15 种绘画风格可以选择,除了基础的动漫、写实风之外,主要是一些特别风格的生成,例如超现实主义、阴冷系、赛博风、空灵、科幻、蒸汽朋克等。
除此之外,PicUP.AI 还有图生图功能,这是在文生图基础上的进一步尝试,只要上传一张参考图,便可以生成与该图风格相近的图片,也可以在原画的基础上添加自己的创意。如果你对生成结果不满意,还可以重新生成。
你生成的每一张图片都可以在线发布,可在“画廊”中查看,让更多用户看到你的作品。目前支持免费有水印下载,想要下载无水印图片需要消耗 5 个图片处理点数。
DALL-E 2
DALL- E 和升级版 DALL-E 2 都来源于 OpenAI 团队,这个由马斯克参与创办的国际顶级 AI 研究机构在 2020 年 7 月公布 Image GPT 模型,将在自然语言处理上取得突破性成就的 Transformer 模型引入图像补全及生成任务。不仅在 2021 年 1 月开源了新的深度学习模型 CLIP(Contrastive Language-Image Pre-Training)- 一个当今最先进的图像分类人工智能,并且推出了全新 AI 模型 DALL·E。只需输入文字描述,DALL·E 就能画出符合要求的一系列备选图像。可以说这是最早实现“以文生图”的平台。
DALL-E 2 是它的升级版。特点是风格写实,操作足够简单,完成度高,速度快到可以当搜索引擎:60 秒内生成 10 张图片(1024 × 1024),可无限延伸变化,甚至可以擦除局部重新生成。
新用户每月免费生成 200 张图片,之后每月 60 张,后续 15 美元可生成 460 张。
在版权方面,DALL·E 2 背后的组织 OpenAI 列了几条严格的限制:图片生成版权最终归属 OpenAI;仅供个人学习探索使用,不能商用,不能用于制作 NFT;不能在社交媒体上发布过于写实的人脸生成结果,会有肖像侵权风险。
Midjourney
Midjourney 便是之前生成画作“太空歌剧院”战胜人类画手获奖的平台。
它的特点是界面简洁,选择多样。Midjourney 搭在了通讯软件 Discord 上,在对话框输入“/image”后,用英文输入描述词,然后按下回车键。这个过程就像在和 AI 聊天一下。60 秒后,你就可以在对话框里收到 4 张渲染好的图片。如果对“图 1”不满意,可以点击“U1”按钮增加细节,按“V1”按钮延伸变化,直到满意为止。
Midjourney 拥有创作社区, 零门槛的交互和非常好的输出结果, 从输出风格上看, 非常明显针对人像做了一些优化并且风格倾向也比较明显。
每个新用户有生成 25 张图片的机会,想要生成更多图片,则需要付费,基本会员 10 美元 / 月,有生成 200 张图片的机会;标准会员 30 美元 / 月,可以无限制生成图片。
版权方面,如果你是免费用户,图像的版权归属于 AI,每月支付 30 美元后,就能将图片拿去商用了。但同时,如果你因此获利达两万美元以上,则需要给 Midjourney 20% 的分成。因为是付费业务,所以 MidJourney 的迭代非常快。
Disco Diffusion
如果说 DALL- E 2 擅长写实,那么 Disco Diffusion 则更擅长描绘氛围、风景极各种概念艺术。
Disco Diffusion 可以实现最复杂的关键词描述,支持自设置的参数很多,是一个待探索的巨大宝库,但是成图时间长,操作界面也相对复杂:不需要下载任何软件,直接在浏览器上就能运行,并且现阶段免费,不过操作比较麻烦。一整个网页都是代码,操作困难,一般来说,你需要等半个小时,如果盯着屏幕看,你会看到图像从满是噪点,逐渐变得清晰、有细节起来。使用期间,Disco Diffusion 可能会提示你在电脑上空出足够的运行内存,但因为它运行在谷歌免费提供的 GPU 等计算资源上,对用户的电脑硬件要求并不高,打开浏览器运行就可以。除了只输入文字让 AI 自由发挥,你还可以事先垫进一张初始化图片(Initial Image)去约束 AI 的创作。
Disco Diffusion 生成图理论上可以商用,其程序基于 MIT 开源协议,所有互联网用户可以免费使用、复制、修改甚至出售生成图。但还是存有风险。风险主要来源于你的描述词会引来画风抄袭的争议。
Stable Diffusion
Stable Diffusion 被认为是目前最强的 AI 绘画工具,已完全开源,市面上还有很多”变体“,比如专用来生成二次元人像的 Waifu Diffusion。能快速 (以秒计算) 生成一张饱含细节的 512×512 图像, 只需要一张消费级的 8GB 2060 显卡就能实现 DALL-E 2 级别的图像生成,且生成效率可提高 30 倍。风格上明显更艺术化,且上手操作无难度。
收费标准:有 200 张的免费生成额度,之后需要付费购买点数(生成越复杂,尺寸越大,消耗的点数越多)。
版权要求:可以商用自己创作的图像,但图像如果是通过 DreamStudio 生成的,就自动变成了 CC0 1.0 授权,这样,服务提供商 Stability.ai 也能处理你的图像,无需付费甚至不会经过你同意,也会一并成为通用公共领域 royalty-free 的图片资源。如果是你自己部署了开源的 Stable Diffusion,消耗的是你自己的 GPU 资源,那著作权都归你所有。
谷歌作为最早研究 ai 绘画的公司之一,早在 2015 年便推出了 Deep Dream。最近他们则是一口气发布了两款模型:Imagen 和 Parti。
Imagen 的图像生成具有与 DALL-E 2 相似的扩散模型,但输入依据的是大型 AI 语言模型—由于具有更高的语言理解能力,因此可以从文本描述获得更好的图像生成结果。
新的 AI 模型 Parti(Pathways Autoregressive Text-to-Image)尝试使用一种更接近大型语言模型功能的替代架构(自回归),这些语言模型能根据之前的单词和句子或段落的上下文预测合适的新词。Parti 将这一原则应用于图像,并取得了成功。Parti 可以将长而复杂的文本输入准确地翻译成图像,这表明它可以更好地理解语言和主题之间的关系。
伴随着 Parti 的发布,还有一篇博客文章描述了使用 Google 的文本到图像模型创建图像的过程,可以在此处访问:https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/
但目前 Imagen 和 Parti 还未发布测试版本,其具体使用性如何还有待考证。
NovelAI 和其他
如果你想尝试二次元风格,那么一定要尝试一下 NovelAI。AI 绘画功能收费,:10 美元月费 1000 代币,25 美元月费 10000 代币,每幅画都消耗一定代币。NovelAI 是 cc0 版权,即公有版权。
除了这些应用外,更多的模型和商用应用在也源源不断地出现:微软推出的 NUWA-Infinity,Meta 推出的 Make-A-Scene 和其他平台如 NightCafe Creator 和 WOMBO Dream。
总的来说,AI 绘画产生的素材可以用来打草稿或者发散思维,也可以成为素材、灵感、抽象概念、色彩效果的参考。最重要的是,生成速度较快的 AI 绘画工具,能快速帮助画师们和设计师们构建多种可能性,提供更多思路以及意外的想法。
大家对于 AI 绘画是如何看的?你会用这些 AI 绘画工具吗?欢迎评论区留言。
举报 / 反馈
原文链接:https://baijiahao.baidu.com/s?id=1748641778212045795&wfr=spider&for=pc