第五章数据处理和可视化表达一、引言随着移动互联网和物联网的飞速发展,人类社会产生的数据以惊人的速度增长。如何高效地对这些数据进行采集、存储、处理,并从中发掘到有价值的信息,是大数据分析处理需要解决的问题。网络购物中,消费者购物行为的任何一个细节都被服务器记录着。通过大数据分析,商家可以了解消费者的偏好甚至预测其购买行为,如下图所示。大数据分析使得商家可以追踪用户的行为并确定最有效的方式以提升用户对购物平台的忠诚度,根据用户的个性化需求提供相应的产品或服务以获得更大的市场占有率。教学任务:认识大数据及其特征,认识大数据对人们日常生活的影响,了解数据采集、分析和可视化表达的基本方法.5.1认识大数据大数据是人们提取信息、做出决策的重要依据,是推动信息社会发展的重要资源大数据的产生是与人类日益普及的网络行为所伴生的:物联网、云计算、移动互联网、车联网、手机、电脑以及遍布地球各个角落的各种各样的传感器,无一不是数据的来源或是承载的方式。互联网生成的数据量,不仅远超此前一切人类所生成的数据量的总和,而且在以大爆发性的速度不断增长。大数据成为人们提取信息、做出决策的重要依据,是推动信息社会发展的重要资源。大数据的特征1、从互联网产生大数据的角度来看,大数据具有“4V”特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)。第一,数据体量巨大。从TB级别跃升到PB级别。第二,数据类型繁多。如网络日志、视频、地理位置信息等。第三,价值密度低。以视频为例,在连续不间断地监控过程中,有用的数据可能仅仅一两秒。第四,变化速度快。数据来自世界各地的网络终端,且以秒为单位快速变化。2、从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于模糊,相关性重于因果。第一,在大数据时代强调数据要全量而不是抽样。大数据时代有了更好的数据采集手段,让获取全量数据成为可能。第二,大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。只要掌握了大体的发展方向即可。第三,大数据时代不是因果关系,而是相关关系。因为相关关系也许不能准确地告诉我们某件事情为何会发生,但是会提醒我们这件事情正在发生。3、从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并行计算。第一,大数据存储在互联网不同的服务器与各客户终端。第二,应用分布式并行计算处理互联网的大数据。大数据对日常生活的影响一、大数据使人们日常生活更便捷1、方便支付。2、方便出行。应用交通系统的大数据,网络约车出行,智能导航行车避免堵车,无人驾驶,智能地图等等。3、方便购物与产品推介。网络购物时可对客户进行产品推介,方便人们选购产品。4、方便看病与诊病。应用网络预约挂号,减轻与节省患者排队挂号的时间,双方便医生提前分析患者的病史数据,以便更科学诊病。二、大数据对人们日常生活产生的负面影响。1、个人信息泄露。在大数据时代,我们使用的手机、计算机、网络、信用卡等信息科技,都会产生数据。这些数据时刻存在泄露的风险。2、信息伤害与诈骗。在大数据时代,我们的网络信息随时都可能被不法分子窃取,并对我们及身边的亲人造成伤害。数据的采集数据采集的方法和工具:1、系统日志采集法。系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹.系统日志包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序(如Flume),将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。2、网络数据采集法。网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。API又叫应用程序接口,是网站的管理者为了使用者方面,编写的一种程序接口。目前主流的社交媒体平台如新浪微博、百度贴吧以及Facebook等均提供API服务,但是API技术毕竟受限于平台开发者,为了减小网站(平台)的负荷,一般平台均会对每天接口调用上...