干货 | 李飞飞主讲斯坦福大学 CS231n 课程笔记(6)

2018-12-01 22:42:21 网络整理阅读：103 评论：0

o 训练集包含二维平面的这些点，点的颜色代表不同类型

o 可以发现最近邻分类器时根据相邻的点来切割空间并进行着色

o 但是这个分类器并非时最好的选择，可以饭先最近邻分类器的一些问题

· 其中一个就是图像中部集中了大多数绿点，但在中心却有一个黄点，黄..域被分割成两块，也看到了其他地方相同的情况，绿点有一个近了蓝..域，红点也有几个近了蓝..域，这些点可能时噪声或者失真信号。

由这个动机出发，就产生了K-近邻算法

干货 | 李飞飞主讲斯坦福大学 CS231n 课程笔记(6)

o 它不只是找出最近的点，还会做一些特殊动作，根据我们测得距离度量找到K个点，然后在这些相邻点中进行投票，然后这些票最多的近邻点预测出结果。

o 可以想象下更复杂的完成这个任务的方法，可以在距离上加权进行投票等等。但完成这个任务最简单的方法还是进行多数投票

o 这里用同样的数据集，使用K等于1、3、5的最近邻分类器

· 当k等于3时，可以看到绿..域中的..噪点，不会再导致周围的区域分为..，由于使用多数投票的方法。

· 当K等于5时，蓝色和红..域间的这些决策边界会变得更加平滑好看

o 所以当使用最近邻分类器的时候，总会给K赋一个比较大的值，这样hi使决策边界更加平滑，从而得到更好的结果

【学生提问】：

· 白..域代表什么？

· 白..域代表这个区域中没有获得K最近邻的投票，可以做一个大胆的假设将它归为某一个其他类别

思考计算机视觉时，再几个不同的观点之间，反复思考与验证时非常有用的

o 第一种观点是，在平面上的高维点的概念

o 另一个观点是具体图像的观察，因为图像的像素点允许把这些图像看作高维向量