首页 > 科技 >

悉尼大学陶大程:遗传对抗生成网络有效解决GAN两大痛点(4)

2018-10-13 23:33:34 网络整理 阅读:170 评论:0

单目深度估计是一个病态问题,因此极具挑战性。这个任务期望从单张场景图中还原出像素级的深度值,且在3D场景几何理解中扮演着关键角色。为什么这是一个病态问题呢?举个例子,假设三维空间中有一条线,然后我们可以把它投射到一个平面上。在投射的平面上,我们可以看到一条直线,但是我们无法确认,在原始的三维空间中,这条线是直线还是曲线?可是实际中,我们却可以根据图像的信息来估计深度信息。

比如这张图中,人的身高在原始图像中,大约是三厘米,但是你绝对不会认为这个人的身高在三维实际空间中就是三里面。根据常识,我们都知道,成年男子身高大概在175到180厘米左右。

根据简单的几何变换,我们就能够估计到这个人到摄像机的距离。图像中还有很多的信息能够帮助我们估计像素的深度信息,比如阴影、色彩的变化、layout、地面等等。关键的问题是,我们应该如何设计特征,然后用合理的统计模型来估计每一个像素的深度。

很久之前,研究人员用handcrafted特征结合MRF(马尔科夫随机场)来完成这个任务。虽然传统的MRF模型的预测效果不令人满意,但是已经存在的结果告诉大家这个问题不是完全不可解决的。

最近的方法通过探索深度神经网络(DCNN)的多层次情景语义信息在这个问题上取得了显著的进步。然而,这些方法预测出的深度值任然是非常不准确的。

几个可能的原因是:

由于深度分布的极端复杂性,在标准的回归范例下学习深度分布是很困难的。

之前的工作在建模时都忽略了深度值之间的有序关系。

图像级和多尺度信息目前还没有被充分发掘。

受这些现象的启发,我们首先将深度估计问题转化到离散范例上来解决,其次通过提出一个顺序回归约束以此为深度预测引入排序机制,最后设计一个有效的多尺度深度网络来实现更好的情景语义信息学习。我们的模型(DORN)不仅在四个非常有挑战的数据集(KITTI, ScanNet, Make3D 和 NYU Depth v2)上的效果远超同行,并且赢得了 Robust Vision Challenge 2018深度估计项目的第一名。

相关文章