o 训练集包含二维平面的这些点,点的颜色代表不同类型
o 可以发现最近邻分类器时根据相邻的点来切割空间并进行着色
o 但是这个分类器并非时最好的选择,可以饭先最近邻分类器的一些问题
· 其中一个就是图像中部集中了大多数绿点,但在中心却有一个黄点,黄..域被分割成两块,也看到了其他地方相同的情况,绿点有一个近了蓝..域,红点也有几个近了蓝..域,这些点可能时噪声或者失真信号。
由这个动机出发,就产生了K-近邻算法
o 它不只是找出最近的点,还会做一些特殊动作,根据我们测得距离度量找到K个点,然后在这些相邻点中进行投票,然后这些票最多的近邻点预测出结果。
o 可以想象下更复杂的完成这个任务的方法,可以在距离上加权进行投票等等。但完成这个任务最简单的方法还是进行多数投票
o 这里用同样的数据集,使用K等于1、3、5的最近邻分类器
· 当k等于3时,可以看到绿..域中的..噪点,不会再导致周围的区域分为..,由于使用多数投票的方法。
· 当K等于5时,蓝色和红..域间的这些决策边界会变得更加平滑好看
o 所以当使用最近邻分类器的时候,总会给K赋一个比较大的值,这样hi使决策边界更加平滑,从而得到更好的结果
【学生提问】:
· 白..域代表什么?
· 白..域代表这个区域中没有获得K最近邻的投票,可以做一个大胆的假设将它归为某一个其他类别
思考计算机视觉时,再几个不同的观点之间,反复思考与验证时非常有用的
o 第一种观点是,在平面上的高维点的概念
o 另一个观点是具体图像的观察,因为图像的像素点允许把这些图像看作高维向量