可编辑范本数据挖掘报告一、数据挖掘综述随着信息时代的来临,网络技术的发展和普及,各个行业都有爆炸性的数据增长,这些海量的数据中隐藏着我们需要的信息和财富。国际数据公司(IDC )报告称,2011 年全球被复制和创建的数据总量就已经大得惊人,在短短几年时间内增长了近9 倍,而且预计这些数据每两年就将至少增加一倍。并且,政府机构也对外宣称了要加快数据研究进度这一重大计划, 各行业也在积极讨论数据挖掘研究带来的吸引力。面对如此庞大的数据,以及这些数据背后的价值和新的机遇,挖掘和研究这些数据就会给我们带来挑战和切实的利益。早在 1989 年 8 月美国底特律召开的第11 届国际功能会议上就出现了KDD 这个术语, 1995 年学术界和工业界共同成立了ACM 数据挖掘与知识发现专委,后者发展成为数据挖掘领域的顶级国际会议。数据挖掘是一门交叉学科,涉及到各个行业和各个领域,同时,随着各行业对大量数据的处理深度和分析上的需求的增加,数据挖掘研究已经成为了学术界研究的热门学科,同时也受到各领域的重视。经过多年的发展,数据挖掘研究领域成果颇丰,已经有了一套自己的基础理论。从大体趋势来说,国内和国外的研究方法和方向有差异,尤其是在某些方面还是存在着一定的差距。总的来说,国外的研究更偏重交叉学科和理论基础的研究,而国内则偏重于实际的应用上,用数据来解决实际的问题。同时, 国内的学者在研究上也处于世界前沿水平,在国际舞台上也有十分突出的成绩,近年来也频频有国内团队登上国际领奖台。在 20 世纪 90 年代中后期,用关联规则来进行挖掘、分类、预测等被逐渐用于时间序列数据挖掘和空间数据挖掘,以发现与时间和空间相关的有价值的模式,这些手段使得数据挖掘研究领域已经有了一些比较成熟的技术。如今的定位系统、手持移动设备等设备的普及和应用积累了大量的移动对象数据,对这些数据领域的研究使我们受益匪浅。近年来, 数据挖掘研究已经渗透到生物信息、医疗卫生、智能交通、金融证券、社交网络、多媒体数据挖掘、轨迹数据、 文本数据等各大领域。这些领域与数据挖掘研究接轨后又会出现一些新的机遇和挑战。数据挖掘是从大量数据中抽取隐含的事先未知的具有潜在有用信息或知识的非平凡过程。一般来说可以把数据挖掘过程分为6 个阶段,如图所示。可编辑范本数据收集数据预处理构造模型评估与优化结果应用问题的意义数据挖掘过程(1)问题的定义:进行用户调查熟悉应用领域的数据背...