本门课程是李飞飞在斯坦福大学讲授的计算视觉,他们团队主要通过机器学习和深度学习的方法来传授机器视觉的相关内容,本文作者吉林大学赵一帆进行了笔记方面的整理。笔者能力有限,如有出错,请及时告知。
图像分类的任务,这是一个计算机视觉中真正核心的任务,准确说它是研究图形处理的任务。
o 做图像分类时,分类器接受一些输入图像,并且已经确定分类或者标签的集合,比如说可爱的猫咪。
o 分类器的工作就是查看未分类的图片并且给它分配到其中一些固定的分类标签。
这对于计算机来说是一件很难的事情
o 事实上,当一个计算机看着这些图片的时候,它肯定没有一只猫的整体概念,计算机呈现图片的方式其实就是一大堆数字。图像可能只是一些像的像素,每个像素由红、绿、蓝三个数字表示,这很难从几千个巨大数列中提取猫的特性。
这个问题被称为语义鸿沟,对于猫的概念或者其它的标签,是赋给图像的一个语义标签,和这些计算机实际看到的像素值之间有着巨大的差距。
o 这是一个非常困难的问题。因为可以用很微小,很微妙的方式改变图片,这将导致像素网络整个发生变化。