- 在线时间
- 39 小时
- 最后登录
- 2012-10-26
- 注册时间
- 2012-1-1
- 听众数
- 7
- 收听数
- 0
- 能力
- 0 分
- 体力
- 205 点
- 威望
- 0 点
- 阅读权限
- 30
- 积分
- 102
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 90
- 主题
- 38
- 精华
- 0
- 分享
- 0
- 好友
- 15
升级   1% 该用户从未签到
 群组: 数学建模培训课堂1 |
1)首先,数据挖掘-Data Mining不是一个骗局,而是一种还处于发展中,已经投入部分投入实际生产实践的技术框架。DM之所以经常和知识发现概念相关联是因为知识发现(Knowledge Discovery)是DM的目标和产出(output)。随着信息化应用的普及,传统的交易性数据(Transaction),比如:你在超市购物,产生了一笔交易,这笔交易会在现有的数据库系统中存储下来,随着时间的累计,这种数据变得海量。面对这些海量数据,这其中是否存在一些可以更好帮助决策的东西。比如:什么产品的搭配拜访可能会提高销量,我超市的用户可能都是出于什么消费水平?。注意:我这里用到“可能”字眼,意味着决策需要用到历史数据的支持来降低未来决策的风险(提高可能性)。而实际上,比如:沃尔玛和一些大型金融机构使用数据挖掘的产品和工具都超过了二十年,而且产生了期望的效应,而国内电信、金融行业从2005年以后逐渐加大了相关的投入。因此,如果DM是一个骗局,那被忽悠的都是全球最顶尖的公司和最顶尖的IT管理人员。2 t, t/ H1 J' t) T2 Y' ~0 |- B8 {
2)数据(Data)-信息(information)-知识(Knowledge)是一个递进的关系。数据的电子化产生了信息,比如:我们可以通过SQL语句检索到我们要的信息,但是我们无法用简单的SQL语句找到我们需要的知识,比如:我想知道某种型号面包的销售是否存在季节性因素和扰动,这就需要专门的统计分析工具和算法,而在某些命题常规统计学方法不能奏效的时候,就可能需要用到一些更复杂的工具和算法,比如:随机过程,神经网络等。6 a# l7 G2 a0 n4 \' h4 q0 C
3)数据挖掘的步骤一般可以分为:数据提取(ETL)-数据仓库-数据挖掘工具-知识发现。当然这些挖掘的结果很多时候是令人无法接受,或者不能理解的,但是DM提供的是基于某种算法下的或然性(可能性),还需要与具体的业务逻辑相结合,因此数据挖掘应用效果的核心不是工具和平台的先进,而是对现有企业的业务知识和市场战略把握、决策方法等相关联的事情。此类项目失败的风险远远高于普通IT项目的最大原因在于历史数据的不完整(早期系统设计上的缺陷等),实施队伍的不专业,业务知识梳理能力低下。其中最核心的可能在于实施此类项目对于人员的要求较高,而很多企业的IT部门,以及承当项目的公司显然不具备这样的团队。3 ]. e; W* M, j8 d
|
zan
|