Python KNN算法 | 上海亮衡信息

5 提交 / 0个新回复

登录以发表评论

星期三, 07/23/2014 - 08:55

Python KNN算法

1. 简述机器学习
在日常生活中，人们很难直接从原始数据本身获得所需信息。而机器学习就是把生活中无序的数据转换成有用的信息。例如，对于垃圾邮件的检测，侦测一个单词是否存在并没有多大的作用，然而当某几个特定单词同时出现时，再辅以考虑邮件的长度及其他因素，人们就可以更准确地判定该邮件是否为垃圾邮件。
  机器学习分为监督学习和无监督学习，其中：
  （1）监督学习：包含分类和回归。分类，是将实例数据划分到合适的分类中。回归，主要用于预测数值形数据。因为这类算法必须知道预测什么，即目标变量的分类信息，所以称为监督学习。
  （2）无监督学习：此时数据没有类别信息，不能给定目标值。在无监督学习中，将数据集合分成由类似的对象组成的多个类的过程称为聚类，将寻找描述数据统计值的过程称为密度估计，此外，无监督学习还可以减少数据特征的维度，以便我们可以使用二维或三维图形更加直观地展示数据信息。
以下是机器学习的主要算法：
  监督学习：k-近邻算法（KNN），朴素贝叶斯算法，支持向量机（SVM），决策树
  线性回归，局部加权线性回归，Ridge回归，Lasso最小回归系数估计
  无监督学习：K-均值，DBSCAN，最大期望算法，Parzen窗设计
2. K-近邻算法
  k-近邻算法（KNN），是最基本的分类算法，其基本思想是采用测量不同特征值之间的距离方法进行分类。
  算法原理：存在一个样本数据集合（训练集），并且样本集中每个数据都存在标签（即每一数据与所属分类的关系已知）。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较（计算欧拉距离），然后提取样本集中特征最相似数据（最近邻）的分类标签。一般会取前k个最相似的数据，然后取k个最相似数据中出现次数最多的标签（分类）最后新数据的分类。
算法伪码：