wuhu 专题
文 | Swagblueee
不是吧...
AI 绘画已经这么卷了!
AI 建模又来了?
前几天
我们还在讨论 AI 绘画进化到恐怖级
二次元、写实、抽象……
各种画风更是不在话下
然而
正当不少创作人热议这项技术的时候
AI 建模技术也悄然而至…
而且
只要打字就可以自动建模?!
谷歌发布 AI 生成 3D 模型新方法
近日,Google Research 最近推出了一款 AI 自动建模的新技术,名叫DreamFusion。该技术牛就牛在 可以通过输入文本直接 AI 生成 3D 模型,并且是自带贴图的,开启了 AI 建模的新纪元。
在官方最新发布的论文中提到,如今所有的文本到图像的 AI 合成都是由 通过数十亿个图像 - 文本匹配训练的扩散模型驱动的。
就相当于是存在一个相当丰富的预设资源库,AI 只需要根据用户的输入选用、组合素材即可完成 AI 合成。但是如果将这种模型应用于 3D 模型的生成,则 需要首先建立起庞大的带有标记的 3D 模型资产数据库和有效的 3D 数据去噪架构,然而这两者目前都是不存在的。
为了规避这些限制,Google 的研发者们使用了一种预训练的 2D 文本 - 图像扩散模型来执行文本到 3D 模型的生成。
预训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型,整个过程既不需要 3D 训练数据,也无需修改图像扩散模型,完全依赖预训练扩散模型作为先验,证明了预训练图像扩散模型作为先验模型的有效性。
AI 建模的探索之路
事实上,在今年 9 月份 NVIDIA 就发布了一款名叫 GET3D 的工具,它的开发初衷是为元宇宙内容建构人员可以更快创造大量且不同的 3D 物件,也为自动生成带贴图的 3D 模型打开了探索之路。
文中提到,随着多个行业朝着大规模的 3D 虚拟世界发展,能够生成大量的、高质量的、多样的 3D 内容的工具是非常被需要的。
但是目前市面上的 3D 资产的获取方式主要由 Blender 和 Maya3D 等建模软件手工设计,这个过程需要耗费大量的时间和专业知识。GET3D 希望训练更好的 3D 生成模型,来生成下游任务可以直接使用的带纹理的 3D 模型。
但是,在之前通过 AI 生成 3D 模型的试验中,开发者面临着三点问题:
(1)缺乏几何细节
(2)缺乏纹理
(3)在合成过程中只能使用神经渲染器,3D 软件中不方便使用
为了解决以上这些问题,GET3D 结合了可微表面模型、可微渲染器和 2D 的 GAN 等新技术来训练模型,实现了能够生成带纹理的、复杂拓扑结构的、丰富几何细节的 3D 模型。
GET3D 将模型的生成分为两个支线,分别是输出模型表面拓扑结构的几何生成器和控制表面材质属性的纹理生成器。有了模型的形状和材质贴图,GET3D 再使用可微分渲染器渲染到 2D 的图片。
GET3D 甚至还支持可以手动调节参数来控制生成的模型颜色。其生成的模型材质细节非常丰富,除了基本的颜色、粗糙度、金属性,还可以体现法线贴图和多种高光效果。
GET3D 让我们离人工智能驱动的 3D 内容创作大众化又近了一步,它对即时生成带纹理 3D 形状的探索也促进了 DreamFusion 的设想与开发。
参考文献:GET3D: A Generative Model of High Quality 3DTextured Shapes Learned from Images
除此之外,在文本引导的图像生成模型领域还曾提出过一个名叫 3DiM 的扩散模型,它可以从单个图像进行 3D 新视图合成。将 3DiM 与之前开发的其他模型在数据集上的工作进行了比较,发现 3DiM 从单个视图生成的视频实现了更高的保真度,同时大致具有 3D 一致性。
Diffusion Model 无论从真实度还是还原度都几乎无可挑剔,已然拥有成为下一代图像生成模型的代表的潜力。
比如下面的马桶模型,只需要根据一整图片就可以 AI 生成另外两个视角的图片,根据三个不同视角的图片就可以搭建出一个立体的 3D 模型。
3DiM 研究的研究为 AI 建模带来了一些启发:
1、证明了扩散模型对 2D 转 3D 合成的有效性。
2、随机条件反射 – 新型采样器,可实现近似的 3D 一致性。
3、可以使用图像分割工具 UNet 来实现权重共享和交叉注意力来改善结果。
4、开发出一套新的标准来量化无几何模型 3D 一致性,即 3D 一致性评分。
官方网站:3d-diffusion.github.io
简单来说,GET3D 和 3DiM 分别探索了 2D 转 3D,文字转 2D 的生成过程,为 DreamFusion 的产生做出了铺垫。
打字建模的理想照进现实
上文提到的 GET3D 还是需要提供一张 2D 图像作为输入,到了 DreamFusion 就只需要输入文字即可生成模型。
当你输入“青蛙穿毛衣”
当你输入“骷髅小哥喝红酒”
当你输入“老虎吃冰淇淋”
当你输入“鹦鹉对战下国际象棋”
当你输入“破壳小鸡站在蛋旁”
当你输入“健身自行车在室内”
是不是很好玩?
DreamFusion 实现从文字到模型的转化主要是结合了两种新方法:神经辐射场和 2D 扩散。
如果是换建模师来完成一个文字到模型的创建工作,那么第一步就是建模师根据文字搜寻或构想出模型的具体形象,再根据这个形象来完成建模、贴图、渲染等一系列任务。
在 DreamFusion 中,它可以直接完成模型的建模和渲染,在建模的过程中 AI 可直接通过文本思考参照物然后围绕参照物自动建模。
这是一种用深度学习完成 3D 渲染任务的新型计算机视觉渲染模型。
不断优化后
AI 建模已经进化成这样了!
现在可以通过 AI 的“意识”将输入的文字具象化出具体的符号图像。他的演变过程 AI 已经会具体非常强的画面视觉化的能力了。
2D 扩散模型是 Google 自己的图像生成元模型,他可以将文本转为 AI 意识到的画面从而实现建模!
DreamFusion 优化的每次生成迭代都包含四步:
(1)随机采样一个相机和灯光
(2)从该相机和灯光下渲染 NeRF 的图像
(3)计算 SDS 损失相对于 NeRF 参数的梯度
(4)使用优化器更新 NeRF 参数
不仅如此,DreamFusion 模型中能够实现精确 3D 几何的关键组件,它在彩色图像上的表现非常出色,并更接近于真实图像的样貌。
参考文献:DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
DreamFusion 的使用限制
面对如此神奇的黑科技,不少网友纷纷表达了对于 AI 技术高速发展的惊叹,同时也对未来建模师职业的担忧。
其实,目前的 DreamFusion 还属于试验开发阶段!
其文本输入只能根据官方的预设进行选择搭配,并且生成的模型分辨率还比较低,看起来并没有非常精致。
如果要导出的话只支持导出.glb 格式,该格式目前只能适用于 AR 项目。想要高精度的三维模型,则只能作为低模导入到其他三维软件中进行雕刻和细化。
通过以下 5 张图来测试
我们来看看不同描述生成的松鼠模型
虽然现在这项 AI 建模技术还处于一个不能大规模使用的实验开发阶段,不能供我们随意 DIY 自己想要的模型,但是在官方的网站中罗列展示了许多开发者训练生成的一些模型,既包括了白模,又有带贴图材质的,甚至还可以供浏览者下载这些 AI 生成的 3D 模型。
官方网站:dreamfusion3d.github.io
下载的模型可以导入 Unity 或者 Blender 做成 AR 增强现实中的道具,是不是也是很有意思呢?
AI 建模的未来与展望
事实上,比起建模师手下栩栩如生、细节满满的模型来说,像 DreamFusion 所生成的模型就显得有些“粗制滥造”,在如今的数字生产中根本派不上什么用场。
但是,研究像 DreamFusion、GET3D、3DiM 这样的 AI 建模方法的意义并不是希望它们现在就可以让我们解放双手,而是在未来为我们开发出更实用的工具开辟新的灵感和道路。
如今 AI 技术的发展突飞猛进,像早先的 DALL- E 这种 2DAI 生成工具只花费了两年的时间就实现了从最初发布到如今的大规模应用,所以乐观来说 DreamFusion 的未来发展也许也比我们想象的要快得多。
说不定在未来的不久,我们就可以利用 AI 工具生成我们所需要的模型了,然后再根据实际需要稍作调整就可以应用到创作当中。到那时候,又是几家欢乐几家愁呢,让我们拭目以待吧!
本期话题
你对 AI 建模的未来有什么期待?
—END—
原文链接:https://www.bilibili.com/read/cv20186929/