神经网络简介 神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,其组织能够模拟生物神经系统对真实世界所作出的交互反应。基于神经网络建立计算模型,并用于解决科学和工程中的问题就称为神经计算。 主要的数据挖掘方法 分类 分类是一种有监督的学习方法,己知数据的类别是确定的。支持向量机是一种非常重要的分类方法,它是建立在统计学习理论基础上的机器学习方法。通过学习算法,可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的推广性能和较高的分类准确率。主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。而且一个重要的优点是可以处理线性不可分的情况。用实现分类,首先要从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。 聚类 类是把一组个体按照相似性归成若干类别,即”物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。 在统计方法中,聚类称为聚类分析,它是多元数据分析的三大方法之一其它两种是回归分析和判别分析。它主要研究基于几何距离的聚类,如欧式距离、明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。大多数聚类方法是基于全局比较的聚类,它需要 考察所有的个体才能决定类的划分因此它要求所有的数据必须预先给定,而不能动态增加新的数据对象。聚类分析方法不具有线性的计算复杂度,难以适用于数据库非常大的情况。 在机器学习中聚类称作无监督或无教师归纳因为和分类学习相比,分类学习的例子或数据对象有类别标记,而需要聚类的例子则没有标记,需要由聚类学习算法来自动确定。很多人工智能文献中,聚类也称概念聚类因为这里的距离不再是统计方法中的几何距离,而是根据概念的描述来确定的。当聚类对象可以动态增加时,概念聚类则称是概念形成。 依赖关系 计算依赖关系的典型算法有关联规则。关联规则是由最初开始应用于购物篮分析,在商场或超市对商品进行相关分析。 决策树 决策树学习着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。所以从根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。基于决策树的学习算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识这也同时是它最大的缺点,只要训练例子能够用属性一结论式的方式表达出来,就能使用该算法来学习。 粗糙集 针对边界线区域思想提出了集。它是一种刻画不完整性和不确定性的数学工具,能有效的分析和处理不精确、不一致、不完整等各种不完备信息,还可以对数据进行分析和推理,并从中发现隐含的知识,揭示潜在的规律把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集。由于它有确定的数学公式描述,所以含糊元素数目是可以计算的,即在真假二值之间的含糊度是可以计算的。 贝叶斯预测 贝叶斯网络是用来表示变量集合连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据问的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。它在数据挖掘中具有以下优点可以处理不完整和带有噪声的数据集。它用概率测度的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题用图形的方法描述数据间的相互关系,语义晰、可理解性强,这有助于利用数据间的因果关系进行预测分析。 偏差分析 偏差分析也称为孤立点分析,可以在众多的数据、对象或模式中发现与多数数据、对象或模式有显著差异的、异常的或不一致的数据、对象或模式,偏差分析可以帮助人们找出异常,进而研究异常后面隐藏的原因. 偏差分析方法可以分为三类,统计学方法,偏于距离的方法和基于偏移的方法。 统计预测 统计预测是通过以往数据的分析,找到规律,来预计未来的趋势。常用方法有时间序列,回归分析等。回归是通过具有己知值的变量来预测其他变量的值。在最简单的情况下,回归采用的是线性回归这样的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。时间序列是用变量过去的值来预测未来的值。与回归一样,它也是用己知的值来预测未来的值,只不过这些值的区别是变量所处时间的不同。
* j: [5 o X0 K0 X6 d3 h, |$ h, C# t
|