4D高斯抛雪球模型问世：单视图视频也能快速生成动态3D对象

4D高斯抛雪球模型问世：单视图视频也能快速生成动态3D对象

2024-12-24 19:36

论文标题：
Fast Dynamic 3D Object Generation from a Single-view Video
论文作者：
Zijie Pan, Zeyu Yang, Xiatian Zhu, Li Zhang

**导读：**本文提出了一种新的4D图像生成框架，可以从单视图视频的简短视频中快速生成动态3D目标，且在保证高质量渲染的基础之上，将生成速度提升了10倍，该框架核心模块（本文贡献）分为跨视图和时间戳的图像合成及4D高斯抛雪球（Efficient4D）表示模型。©️【深蓝AI】编译

该框架首先在不同的相机视图下生成具有时空一致性的高质量图像，然后将它们用作标记数据，以此直接训练具有显式表达形式的几何点云新模型——4D高斯抛雪球模型，最终能够实现在连续相机轨迹下进行实时渲染。本文提出的框架合成视频和真实视频数据集上进行了广泛的实验，实验结果表明：与SOTA方案相比，Efficient4D在速度反面提升了10倍（例如：只需要14分钟来模拟动态对象），同时在新试图合成质量方面与SOTA方案一致。

Efficient4D的输入为有限视角下描述动态对象的简短视频，输出为（在任意特定视图和时间点下）具有几何和时间一致性的对象。Efficient4D包含两个关键组件：跨视图和时间戳的图像合成、4D高斯表示模型及重建。

2.1 Image synthesis across views and timestamps（跨视图和时间戳的图像合成）

相对于难以获取校准好的4D标注信息，视频中的单视图更容易获取，其具体的获取方式为：生成一个M×N的图像矩阵D来表示具有几何和时间一致性的二维图像（如图2中c所示），其中M表示时间戳，N表示视图（其中时间变化的捕获由图像矩阵中的每一列表示，视图变化的捕获由图像矩阵中的每一行表示），通过该图像矩阵可以为后续的动态对象建模提供全面的信息。

· 图像矩阵D的初始化过程：

将来自输入图像的K帧设置为第一个视图（即第一列），然后继续生成剩余的视图。该任务包括从每行的单个图像生成多视图一致的图像，虽然可以使用现有的二维图像到3D的转换方法（如：SyncDreamer），但是这些方法通常在特定视图下（即列方向上的连续性）难以保证时间一致性，因此本文提出了增强版本的SyncDreamer[1]来提高时间连续性（SyncDream-T）。（具体公式推导需要结合参考文献进行学习，这里不作详细赘述）

· 时间同步性分析：

2.2 4D generation through reconstruction（4D表示下的生成与重建模型）

上一部分讨论的重点主要在离散图像上，而这一部分的目标是通过图像矩阵D对4D表示内容进行重建。4D高斯表示模型是在3D高斯抛雪球的基础之上改进而来，简单来说就是结合了时间维度使得模型可以在时间和空间上进行连贯的动态建模。

进行渲染时，每个高斯模型包含不透明度和视角相关颜色系数（由球谐函数进行表示），给定任意有内外参的视图，可以通过混合高斯表示来渲染时刻位置为处的像素：

表示索引按深度排序的高斯表示，表示视图下的像素方向，表示处高斯模型影响，不同于直接将3D高斯模型投影到图像空间的3D高斯抛雪球法，本文将时间信息融合进中，具体表达方式为：
【左右滑动查看完整公式】

其中是4D高斯在时间上的边际分布，表示3D高斯投影的条件分布：

其中投影表达是将是三维空间点投影到图像空间，（是的外参矩阵，是仿射变换近似的雅可比矩阵）：

在模型训练期间，对均值、协方差、不透明度和球谐系数进行优化，原始目标函数（3DGS）可能会不适用于存在缺陷的合成数据，因此本文引入了一个置信度感知目标损失函数：

其中表示RGB空间的损失，表示SSIM损失；为各自的权重（超参数)；表示生成图像I的置信度得分计算：
【左右滑动查看完整公式】

本文设计的实验共分为定性分析、定量分析、稀疏输入实验分析和消融研究四部分：

3.1 Qualitative evaluation（定性分析）：

3.2 Quantitative evaluation（定量分析）：

3.3 Sparse input evaluation（稀疏输入实验分析）：

3.4 Ablation studies（消融研究）：

本文涉及的消融实验框架为（将完整框架与共五种参考模型进行了对比实验）：

（1）仅使用输入视频进行重建

（2）消除时间同步的空间体素后的基本框架

（3）消除帧间插值后的框架

（4）消除置信度图后的框架

（5）将4D高斯抛雪球模型替换为K-Plane

与上述消融实验对应的结果分析如下（按序号一一对应）：

（1）合成数据集的重要性：如图5中第一行所示，当仅靠单视图视频时，模型无法为新视图的生成产生任何有意义的结果，这可以反映出构建适当训练数据的重要性。

（2）时间同步的空间体素的影响：如图5中的第二行和第四行的对比所示，在没有时间同步的空间体素的情况下，玩具蜘蛛侠背面视角表现出不一致性，这就导致了图像失真的问题，而在加入了时间同步的空间体素时则会减少几何失真的现象从而生成更为正确的图像。

（３）帧间插值的影响：如图5中第三行和第四行的对比所示，帧间插值可以有效地减轻新视图渲染图像中出现的模糊（图像矩阵的低帧率会导致生成图像明显的不连续性问题）

（４）目标置信度感知的影响：置信度感知可以有效减轻训练数据噪声的影响，在图中第三行和第四行对比可以看出，包含置信度图后可以有效降低帧间不一致引起的渲染模糊，从而提高了渲染质量。

（５）现有4D表示模型与Efficient4D对比：两者在动态场景重建方面均表现出优越性能，但Efficient4D在速度方面有10倍提升，同时可以进行显式点云实时渲染。

本文提出了一种新的框架Efficient4D，利用了SDS-free（未使用分数蒸馏采样）的设计和高效的4D表示方式，在显著加快了生成过程（10倍的速度提升）的同时，也保证了高质量的新视图合成和重建。此外，Efficient4D在极其稀疏的输入场景中依然是有效的（两帧可使用的图像），也充分展现了该框架具有更为广阔的应用范围。

当然，本文在研究过程中也发现了一些局限性（未来研究工作可以从这些方面进行展开）：

1）在局部平滑处理方法中，图像序列生成器用到了滑动窗口，这使得该框架在处理长视频的过程中变现不足，后续工作可以从使用全局感受野的可学习注意力层来替换平滑过滤层的角度进行研究；

2）同时在处理长视频时需要较大的GPU内存，也可以通过使用多GPU或CPU来减少内存开销。

以上就是本篇文章【4D高斯抛雪球模型问世：单视图视频也能快速生成动态3D对象】的全部内容了，欢迎阅览！文章地址：http://ww.kub2b.com/quote/9844.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页企库往资讯移动站http://ww.kub2b.com/mobile/,查看更多