最新动态
Text2Room:第一个从文本生成室内三维场景的方法!
2024-12-18 15:25

欢迎关注『CVHub』官方微信公众号

Title: Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models

Paper: https://arxiv.org/pdf/2303.11989.pdf

Code: https://github.com/lukasHoel/text2room

本文提出了Text2Room方法,用于从给定的文本提示符生成房间规模的纹理三维网格模型。为此,文章利用预先训练过的二维text-to-image的模型来合成来自不同位姿的一系列图像。为了将这些输出提升到一个一致的三维场景表示中文章将单目深度估计与一个text-conditioned的图像修复模型相结合,提出了一种连续对齐策略,迭代地将生成的场景帧与现有的几何模型融合,以创建一个无缝的网格。与现有的专注于从文本中生成单个对象或小规模场景的工作不同,论文的方法生成完整的具有多个对象和显式三维几何的大规模3D场景。论文使用定性和定量的度量来评估所提方法证明它是第一种仅从文本生成引人注目的房间规模的完整纹理三维网格模型的方法。

如上图所示,论文使用2D text-to-image模型从给定的文本提示符生成纹理三维网格,论文主要贡献如下

  • 任何文本输入中生成具有引人注目的纹理和几何图形的房间规模的室内场景的三维网格
  • 一个利用二维text-to-image模型单目深度估计在迭代场景生成中将二维帧提升到三维空间的框架。论文提出的深度对齐和网格融合步骤,使算法能够创建无缝和不扭曲的几何图形和纹理。
  • 一个两阶段的定制的视点选择,从最佳位置采样相机的位姿。首先创建房间布局和家具,然后补全剩余的孔洞,创建一个完整的三维网格。

论文通过两阶段的视点选择(Two-Stage Viewpoint Selection),迭代地创建一个纹理的三维网格。

  1. 首先,论文采样预定义的相机位姿和文本,以生成完整的场景布局和家具。在Iterative 3D Scene Generation方案中,每个新相机位姿(用绿色标记)都将新生成的几何图形,通过Depth Alignment StepMesh Fusion Step添加到现有的网格(用绿色三角形表示)中(详见上图)。蓝色位姿/三角形表示在上一次迭代中创建几何图形的视点。
  2. 其次,在场景布局之后,论文通过采样额外的位姿(红色标记)来填充剩余的未观察到的区域。

Iterative 3D Scene Generation

输入一组任意的问题提示,它对应于所选择的位姿 ,论文按照"渲染-细化-重复"模式迭代地构建场景。整个迭代迭的流程如上图所示。

Text2Room:第一个从文本生成室内三维场景的方法!

对于每轮生成步骤首先从一个新的视角渲染出当前场景

其中 是一个没有阴影的经典渲染光栅化函数,是渲染出来的图像,是渲染深度,是图像空间掩模,它标记了没有观察到的内容的像素。

然后,论文使用一个固定的text-to-image模型 ,根据文本提示来绘制未观察到的像素

接下来,利用单目深度估计估计生成的image的深度,将其与渲染深度进行深度对齐得到未观察到场景的深度

最终,通过融合方案将生成的新的场景与现有的场景网格相结合

Depth Alignment Step

对于输入的每一帧,论文通过将单目深度模型预测的深度转换为3D点云,然后与之前生成的模型相拼接。但是这会导致三维几何图形中的深度切割和不连续,因为不同视点的单目深度估计之间的尺度不一致(见后面的消融实验)。

论文使用一个两阶段的深度对齐

  1. 第一阶段,使用一个最先进的深度补全网络IronDepth,将之前场景中渲染得到的ground-truth的深度和新视角生成的image作为输入得到预测的深度补全后的深度:(如框架图中Mono Depth Inpainting部分所示

  2. 第二阶段将预测的补全后的深度与渲染的部分ground-truth的深度进行对齐。论文通过优化尺度和位移参数,在使用最小二乘对齐预测的和渲染的视差。

其中,通过来掩盖未被观察到的像素。然后可以得到对齐的深度a。最后再使用一个5×5高斯核进行平滑。

Mesh Fusion Step

为了将新生成的场景插入现有场景中,首先需要将生成的深度图投影到世界坐标系的点云中,然后对投影的点云进行三角化进行三维重建。

一种简单的三角化方式如上图a所示,但是由于估计的深度是有噪声的,会导致整体的三维场景部分面被异常拉伸(见消融实验)。为了缓解这个问题,论文提出两种滤波方法来去除被拉伸的面

  1. 根据面的边长来过滤面。如果任何面的边的都是距离大于阈值贼被滤除
  2. 根据面的法线和视点方向之间的角度过滤面。避免了从图像中相对较少的像素数为网格的大区域创建纹理。

最后,将过滤后的新生成的网格patch和现有的网格融合在一起,如上图b,c所示。

Two-Stage Viewpoint Selection

论文方法的场景合成的一个关键部分是选择文本提示和相机位姿。原则上,用户可以任意选择这些输入来创建任何所需的室内场景。然而如果随意选择摄像机位姿,生成的场景可能会退化并包含拉伸和孔的伪影。为此,论文提出了一种两阶段的视点选择策略,即从最优位置对每个下一个摄像机位姿进行采样,并随后细化空区域。

Generation Stage

第一阶段,论文创建了场景的主要部分,包括总的布局和家具。在创建封闭的房间布局时,需要选取多个视点,组合成一个重建轨迹,最终覆盖整个房间。实验发现,这些预定义的轨迹需要从一个大多未观察到的区域开始(上图b,对于每个视点,需要对位姿进行平移和旋转,采样额外的位姿,使该场景"FOV"变大,这种轨迹生成的场景是最好的。也即每个视点需要保持一定的观测距离,如果视点变化过小,如上图(e-g),重建结果就会变差。

论文发现,通过相应地设计文本提示,它有助于阻止文本到图像生成器在不需要的区域生成家具。例如,对于查看地板或天花板的相机位姿,论文会分别选择只包含单词“地板”或“天花板”的文本提示

Completion Stage

在第一阶段之后,就完成定义了场景布局和家具。然而不可能先验地选择足够的位姿。由于场景是动态生成的,所以网格包含了任何摄像机都没有观察到的空洞。论文通过对额外的面向这些空洞的相机位姿进行采样来填充剩余的未观察到的区域。

如何找到这些面向空洞的相机位姿?论文将场景体素化为密集的均匀cells,在每个cell中随机采样位姿,丢弃那些太接近现有几何形状的位姿最终为每个cell选择一个位姿来查看大多数未被观察到的像素

注意这里未被观察到的区域可以有任意大小的(上图b),直接从(b)的掩蔽区域会给出扭曲的结果(上图c),因为孔可能太小。论文用经典的修补方法绘制小孔,并将剩余的孔膨胀到更大尺寸的(上图d),重新绘制后可以得到的图像包含了更合理的结构(上图e)。

然后运行Iterative 3D Scene Generation,最后,再在场景网格上运行泊松曲面重建,这将在完成后关闭任何剩余的孔洞,并平滑不连续点,最终生成场景的Watertight geometry Mesh。

Qualitative Results

如上图所示,论文方法创建了高细节纹理和几何,融合成一个完整的没有孔洞的高细节3D场景网格。生成的场景包含平面地板、墙壁和天花板,以及分布在整个场景中的三维对象。

如上图所示,论文方法使用相应的文本提示显示生成的场景,其渲染得到的颜色和阴影,能够很好地满足文本描述。

Quantitative Results

表1显示了多个场景的平均定量结果。论文为每个场景从新的视角渲染60幅图像,以计算二维指标。论文的方法获得了最高的分数,因为渲染从任意的新位姿都是完整的,满足给定的文本提示,且包含高分辨率的图像特征。

论文向用户展示来自每个场景的多个图像,就3D结构的完整性(问题1)和整体感知质量(问题2)进行打分,最终结果显示用户更喜欢论文的方法,它突出了该方法更加准确和完整的几何图形的质量,以及更加丰富的RGB纹理。

消融实验

Depth alignment creates seamless scenes

如上图a所示,来自后续帧的单目深度预测可能在尺度上不一致,场景的不同部分被撕裂开,不会融合成无缝网格。论文提出的深度对齐策略允许融合多帧生成的场景成一个无缝的网格,最终创建一个具有平面地板,墙壁,天花板,没有洞的完整的场景。

Stretch removal creates undistorted scene geometry

如上图b所示,没有三角化过程中边缘和表面法线阈值,许多面被不自然地拉伸。论文提出了两个滤波器(边缘长度和表面法线阈值)来缓解这个问题。

Two-stage generation creates complete scenes

**如上图c所示,从预定义的轨迹生成场景后,场景仍然包含一些孔。**因为场景是随着时间的推移而形成的,所以不可能预先选择照相机的位姿,即查看所有未被观察到的区域。论文的方法在使用一个Two-Stage的相机视角选择,以创建一个没有孔洞的完整场景。

论文展示了一种仅从文本输入生成纹理三维网格的方法。论文使用text-to-image的2D生成器来创建一个图像序列。论文的方法的核心洞察力是一个定制的视点选择,它允许创建一个具有无缝的几何图形和引人注目的纹理的3D网格。具体来说,论文通过使用深度对齐策略,将图像提升到一个尺度一致的三维场景中,该对齐策略迭代地将所有图像融合到网格中。论文的输出网格表示可以用经典的光栅化渲染pipeline的得到任意室内场景。研究者相信论文的方法展示了大规模3D资产创建的一个令人兴奋的应用,它只需要文本作为输入


    以上就是本篇文章【Text2Room:第一个从文本生成室内三维场景的方法!】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/7271.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
DxoMark新规则,排名重排,小米10霸占榜首!dxomark手机拍照排名「DxoMark新规则,排名重排,小米10霸占榜首!」
近日,DXOMark拍照榜单调整评分规则。在新规则下,榜前五分别是:第一:小米10U第二:华为P40Pro第三:小米10Pro第四:vivo X50P
到底是谁在用折叠屏手机?柔性屏手机「到底是谁在用折叠屏手机?」
虽然折叠屏手机仍是相对小众的产品,但它在技术上越来越成熟,价格上也步步下探,成为拉动手机市场发展的一股重要力量。押注折叠
与小霸王游戏机一起凉了的,还有那个“山寨”的时代至尊宝手机游戏「与小霸王游戏机一起凉了的,还有那个“山寨”的时代」
文 | 贝塔斯曼亚洲投资基金(BAI),作者 | 钟成、许露颖陪伴一代人童年的小霸王游戏机在2018年宣布回归游戏机市场,但在此后一
betapubg绝地求生体验服(PUBG MOBILE)绝地求生手机版「betapubg绝地求生体验服(PUBG MOBILE)」
betapubg绝地求生体验服是一款拥有超多技巧的枪战类游戏,在游戏里包含了多种场景地图,每一个地图面积很大,玩家们需要灵活使用
Global Venture Capital Transactions Plummet by 32%, Asia Accounts for Less Than 10% in Q1 AI Funding
AsianFin -- The global venture capital (VC) transaction volumes plunged in the first quarter of 2025, according to globa
DNF手游:传承战士火了,能增加无形装备爆率?已有玩家一身传承套
DNF手游这游戏还是非常看运气的,运气好的玩家可以轻松玩好这游戏,而运气差一点的玩家,即使氪金再多可能也是比不上那些运气好
与上海相伴上百年,恼人的一个多月怎么办
连日的温暖“唤醒”了一位与上海相伴上百年的老朋友,忙着“传宗接代”的它一反平日里温文尔雅的形象,带来持续一个月左右的“毛
A股集体收涨!
截至4月8日午间收盘,沪指涨0.91%,报3124.77点;深成指涨0.42%,报9404.20点;创业板指涨1.78%,报1839.31点。零售、农业、食品
iphone13 pro电池容量是多少?iphone13pro电池续航介绍苹果手机电池容量「iphone13 pro电池容量是多少?iphone13pro电池续航介绍」
iphone13pro电池容量多少?苹果在2021年北京时间9月15日凌晨1点举办秋季发布会,这次发布全新iPhone13系列机型。这次一共发布了4