通过视频着色进行自监督跟踪(2)

2018-07-11 17:35:58 网络整理阅读：202 评论：0

来展示视频重新着色任务模型

接收一个彩色帧和一个灰度视频作为输入

然后预测视频其他帧的颜色

它学习从参考帧中复制颜色

这使得无需人工监督即可学习跟踪机制

学习复制单个参考帧的颜色要求模型学会内在地指向正确的区域以复制正确的颜色。这迫使模型学习一种可用于跟踪的明确机制。为了展示视频着色模型的工作原理，我们在下面显示了一些对 Kinetics 数据集中的视频进行着色预测的示例。

通过视频着色进行自监督跟踪(2)

使用公开数据集 Kinetics 将着色参考帧

应用到输入视频后的预测颜色示例

尽管网络未使用真实标识进行训练，我们的模型还是能学会跟踪视频第一帧中指定的任何视觉区域。我们可以跟踪视频中的物体轮廓或单个点。唯一做出的改变是在视频中传播表示感兴趣区域的标签，而不是传播颜色。

分析跟踪器

由于模型是基于大量未标记的视频进行训练的，因此我们希望深入了解它学习的内容。下面的视频展示了一个标准的跟踪过程：通过主成分分析 (PCA) 将模型学到的嵌入投影到三维空间进行可视化，并做成 RGB 影片的形式。结果表明，学到的嵌入空间的最近邻往往会对应物体标识，即使经过变形或视角改变也是如此。

通过视频着色进行自监督跟踪(2)

上面一行：DAVIS 2017 数据集中的视频

下面一行：对着色模型的内部嵌入进行可视化

在这个可视化中，相似的嵌入具有相似的颜色

这表明学到的嵌入按物体标识将像素分组

跟踪姿态

我们发现，在给定初始帧关键点的条件下，模型还可以跟踪人类姿态。下面所示为基于公开学术数据集 JHMDB 的结果，其中模型跟踪的是人类关节骨架。

使用模型跟踪人类骨架运动的示例

在本例中，第一帧的输入是人类姿态，

后续运动由模型自动跟踪

即使模型从未明确进行过此项任务的训练

它依然能够跟踪人类姿态

虽然着色模型并没有超越强监督模型，但它可以学习跟踪视频分割和人类姿态，且超越了基于光流的最新方法。按运动类型细分性能的结果表明，我们的跟踪器在许多自然复杂场景（例如动态背景、快速运动和遮挡）下比光流方法更加强大。

未来工作

我们的研究结果表明，视频着色提供的信号可以用于学习跟踪视频中的物体，且无需监督。此外，，我们发现系统中出现的失败与视频着色失败有关，这表明进一步优化视频着色模型可以改善自监督跟踪。