您的位置: 旅游网 > 明星

机器学习与数据挖掘中的十大经典算法

发布时间:2019-09-20 14:59:54

机器学习与数据挖掘中的十大经典算法

数年前,有人动议在机器学习与数据挖掘领域中找出十大算法,即建立该领域算法的一个top10。后在该领域选出部分专家学者,经他们提名、汇总和筛选,在分类,聚类,图挖掘,关联分析等领域共选出18个算法。对这18个算法在更广泛的领域内,一人一票,最终得出了其中的10个作为最后的算法。应该说,受时间、经验、领域和参选人数等诸多限制,入选的十大算法,不一定个个都是最优秀的;受条件所限没有入选的有些算法,也不能说是不好的。下面列出这十大算法,供参考。

一、分类决策树算法C4.5

C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树,就是做决策的节点间的组织方式像一棵倒栽树)核心算法ID3的改进算法

,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。

C4.5相比于ID3改进的地方有:

1、用信息增益率选择属性。

ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵,一种不纯度度量准则,也就是熵的变化值,而C4.5用的是信息增益率。区别就在于一个是信息增益,一个是信息增益率。

2、 在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点,不考虑最好,不然容易导致过拟。

3、能对非离散数据和不完整数据进行处理。

二、 K平均算法

K平均算法(k-means algorithm)是一个聚类算法,把n个分类对象根据它们的属性分为k类(kn)。它与处理混合正态分布的最大期望算法相似,因为他们都试图找到数据中的自然聚类中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 p=

近似的k平均算法已经被设计用于原始数据子集的计算。

从算法的表现上来说,它并不保证一定得到全局最优解,最终解的质量很大程度上取决于初始化的分组。由于该算法的速度很快,因此常用的一种方法是多次运行k平均算法,选择最优解。

算法缺点是,分组的数目k是一个输入参数,不合适的k可能返回较差的结果。另外,算法还假设均方误差是计算群组分散度的最佳参数。

三、支持向量机算法

支持向量机(Support Vector Machine)算法,简记为SVM,是一种監督式學習的方法,广泛用于统计分类以及回归分析中。

支持向量机属于一般化线性分类器。这类分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。

Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况,甚至扩展到使用非线性函数中去。支持向量机是一种有很深理论背景的一种新方法。

SVM的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上,在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。

1234下一页>

丁桂薏芽健脾凝胶怎么吃一岁宝宝脾虚如何调理

宝宝脾虚吃什么食物
宝宝腹泻如何治疗
小孩不消化吃什么食物
小孩为什么不爱吃饭
小儿便秘是什么原因
宝宝为什么不爱吃饭
小孩不消化该吃什么药好
调理小儿脾胃虚弱的药
猜你会喜欢的
猜你会喜欢的