K近邻算法的原理与鸢尾花数据集实现详解

k近邻法（k-nearest neighbor, k-NN）是一种基本分类与回归方法，由Cover和Hart于1968年提出。分类时，对于新的实例，根据与它最接近的k个训练实例的类别，通过多数表决等方式，进行预测。对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。（类似于现实生活中少数服从多数的意思）按照这个说法，我们来看下面这个图片：

如上图所示，其中蓝色小方块和红色三角形分别代表两种不同的样本数据，而带有问好的绿色小圆圈则表示待分类数据，我们如何来给这个绿色小圆圈进行分类正是我们的目的：

如果K=3，绿色圆点的最邻近的3个点是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点应该归属于红色的三角形一类。
如果K=5，绿色圆点的最邻近的5个邻居是2个红色三角形和3个蓝色的正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点应该归属于蓝色的正方形一类。
————————————————
版权声明：本文为CSDN博主「你隔壁的小王」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_43212535/article/details/122396174

文章评论