NeRF论文总结
1
NeRF: Representing Scenes
as Neural Radiance Fields
for View Synthesis
目的
通过优化底层的连续体积场景函数来合成复杂场景的新视图。
在这项工作中,我们以新的方式解决了长期存在的视图合成问题。
- 视图合成是指从一组给定的输入图中渲染场景的新视图的问题和它们各自的相机姿势来渲染场景的新视图。从新的视角产生逼真的输出需要正确处理复杂的几何形状和材料反射属性。
之前提及过很多方案,但这是第一次实现。
结果:
提出了第一个continuous neural scene(连续的神经场景表征),能够从在自然环境中捕获的RGB图像中呈现出高分辨率的逼真的真实物体和场景的新观点。自然环境中捕获的RGB图像,呈现出真实物体和场景的高清晰度的新观点。
怎么做:
我们将一个静态场景表示为一个连续的5D函数输出每个方向(θ, φ)上的辐射度。在空间的每个点(x,y,z)的辐射度,以及每个点的密度。在每一点上的密度就像一个不透明度,它控制着通过(x, y, z)的光线所积累的辐射量。
我们的方法优化了一个没有任何卷积层的深度全连接神经网络通过回归来表示这个函数。
从一个单一的5D坐标(x,y,z,θ,φ)到一个单一的体积密度和取决于视图的RGB颜色。
为了生成一个特定视角的NERF。做法以下步骤:
- 将相机光线穿过场景,生成一个采样后的神经辐射场。
- 使用这些点和它们相应的2D viewing directions 作为神经网络的输入,产生一组颜色和密度的输出。这些密度累积起来也就是一个视角的二维图像。
- 因为有些观测不到,所以优化。用梯度下降法。
- 神经网络模型并没有收敛到我们想要的分辨率。我们通过对输入的5D坐标进行位置编码来解决这个问题,从而使MLP能够表示更高的频率函数。
note: 后两点是在模型提出之后作者引用自己在reference 13 中进行对神经网络场的改进。
输入
其输入是一个单一的连续5D坐标:
- (spatial location (x, y, z) and viewing direction (θ, φ))
- 换句话说也就是一组已知相机姿态的图像和摄像机的位置
输出
其输出是体积密度和视图。
结果
通过沿相机射线查询5D坐标来合成视图,并使用经典的体积渲染技术来投射输出。
描述了如何有效地优化神经辐射场来渲染具有复杂几何和外观的场景的逼真的新观点。
描述了如何有效地优化neural radiance fields,以呈现具有复杂几何形状和外观的场景的逼真的新观点。
和其他现代模型进行比较
- [SRN] 几何深度学习通常需要明确的三维监督。新兴的神经场景表征只能用摆放的二维图像进行训练,但现有的方法忽略了场景的三维结构。
提出了场景表征网络(SRNs),这是一种连续的、具有三维结构意识的场景表征,对几何和外观都进行编码。SRNs将场景表示为连续的函数,将世界坐标映射到局部场景属性的特征表示。SRNs可以仅从二维图像及其相机姿势中进行端到端的训练,而不需要访问深度或形状。
- 与之前的变化: SRNs可以仅从二维图像及其相机姿势中进行端到端的训练,而不需要访问深度或形状。
- [NV] 我们规避了这些困难,提出了一种基于学习的方法来表示动态物体,其灵感来自于断层成像中使用的整体投影模型
该方法是在多视角捕捉环境中直接从二维图像中监督出来的,不需要对物体进行明确的重建或跟踪。
- 比较新兴的点: 为了克服基于体素的表征的内存限制,我们在射线行进过程中学习了一个用翘曲场实现的动态不规则网格结构。
- [LLFF] 首先将每个取样视图扩展到 首先通过多平面图像(MPI)场景将每个取样的视图扩展成一个局部光场。表示,然后通过混合相邻的局部光场来渲染新的视图。用户可以自定义调节需要对图像的采样率。
- 扩展了传统的全光采样理论,得出了一个界限,精确地规定了用户在使用我们的算法时应该对一个给定场景的视图进行多么密集的采样。
用基于物理的渲染器生成的新合成数据集的场景在测试集上的比较
能够恢复几何和外观上的细节,如船舶的索具、乐高的齿轮和踏板、麦克风的闪亮支架。
- LLFF在麦克风支架和材料的物体边缘出现了带状伪影。
- SRN在任何情况下都会产生模糊和失真的渲染。
- NV不能捕捉到麦克风格栅或乐高齿轮上的细节。
对真实世界场景的测试集视图的比较
- 比LLFF更一致地表现精细的几何形状,如Fern的叶子所示
以及T-rex中的骨架肋骨和栏杆。 - SRN捕捉到的是低频几何和颜色变化,但却无法再现任何精细的细节。
OPTIMIZING A NEURAL RADIANCE FIELD
第一个改进是对输入坐标进行位置编码。
输入坐标的位置编码,协助MLP表示高频函数。第二项是一个分层采样
结果
我们的工作直接解决了先前工作中的不足之处,即使用MLP来表示物体和场景的连续性。使用MLPs来表示物体和场景的连续函数。我们证明了将场景作为5D神经辐射场产生更好的效果。产生了比以前主流的训练深度CNN的方法更好的渲染。
2
UNISURF: Unifying Neural Implicit Surfaces and
Radiance Fields for Multi-View Reconstruction
目的
NeRF的估计体积密度不允许精确的表面重建。我们的关键见解是,隐含的表面模型和辐射度场可以以统一的方式制定,从而可以使用同一模型进行表面和体积渲染。这种统一的观点使新的、更有效的采样程序成为可能,并且能够在没有输入掩码的情况下重建准确的表面。
结果
在重建质量方面优于NeRF,同时 在不需要equiring mask的情况下,表现与IDR相当。
我们提出了UNISURF(UNIfied Neural Implicit SUrface and Radiance Fields)一个原则性的隐含表面和辐射场的统一框架,其目标是从一组RGB图像中重建实体。我们的框架结合了曲面渲染和体积渲染的优点。重点是不需要equiring mask且表现不错。
note: 注意是实体
IDR
引入了一个神经网络架构,它同时学习未知的几何体、相机参数和一个神经渲染器,该渲染器近似于从表面反射到相机的光线。几何图形被表示为a zero level-set of a neural network,而从渲染方程中导出的神经渲染器能够对广泛的照明条件和材料进行建模。我们在DTU MVS数据集中具有不同材料属性、照明条件和噪声相机初始化的物体的真实世界二维图像上训练我们的网络。我们发现我们的模型能够产生具有高保真度、高分辨率和细节的最先进的三维表面重建。
方法
。相对于NeRF也适用于非实体场景我们把重点限制在可以由三维表面和视线相关的表面颜色表示的实体物体上。
由三维表面和视线相关的表面颜色来表示。我们的方法既利用了体积辐射表征的力量来学习粗略的场景结构,又利用了表面渲染的力量来学习粗略的场景结构。作为一种归纳偏见,用一组精确的三维表面来表示物体,从而导致精确的重建
结果
无需输入掩码。作者认为,神经隐含曲面和先进的可微分渲染程序在未来的三维重建方法中发挥着关键作用。我们统一的表明了在一个比以前更普遍的环境中优化隐含曲面的路径。
模型只限于表示实体。此外,在图像中很少可见的区域,重建的准确性较低。