电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

PB级大数据存储技术与分析技术解析44VIP免费

PB级大数据存储技术与分析技术解析44_第1页
PB级大数据存储技术与分析技术解析44_第2页
PB级大数据存储技术与分析技术解析44_第3页
PB级大数据存储技术与分析技术解析2013年12月2日目录一、PB级大数据存储技术解析................................................................................................................2二、大数据分析系统应规避的问题.........................................................................................................5三、剖析Hadoop和大数据的七误解........................................................................................................8四、6个优秀的开源文件系统助力大数据分析.....................................................................................13五、大数据与关系型数据库是否水火不容?NO……............................................................................17六、大数据探讨:如何整理1700亿条Twitter发布信息?...............................................................21七、畅谈阿里巴巴的大数据梦...............................................................................................................26八、Twitter利用Storm系统处理实时大数据35一、PB级大数据存储技术解析对于存储管理人员来说,大数据应该分为大数据存储和大数据分析,这两者的关系是——大数据存储是用于大数据分析的。然而,到目前为止这是两种截然不同的计算机技术领域。本文就重点解析一下PB级大数据存储技术,希望对您有所帮助。越来越多的存储产品都在融入大数据的概念和功能,并使之成为产品的一大卖点。但对于从事存储管理的专业人员来说,对“大数据”在具体应用场景中的特点和区别有所了解。大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。在快速变化的技术趋势中有两个特点需要存储管理人员重视起来。第一,大数据分析流程和传统的数据仓库的方式完全不同,其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着基础平台(分布式计算或其它架构)变得业务关键化,用户群较以往更加地依赖这一平台,这也使得其成为企业安全性、数据保护和数据管理策略的关键课题。第二,通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储(NAS)和存储区域网络(SAN)——其通常是内置的直连存储(NAS)以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂,因为你无法像以前那样对这些数据部署安全、保护和保存流程。然而,执行这些流程策略的必要性被集成在管理分布式计算集群之中,并且改变了计算和存储层交互的方式。大数据分析和传统的数据仓库的不同大数据分析中包含了各种快速成长中的技术。因此,简单用某一种技术尝试对其定义,比如分布式计算,会比较困难。不过,这些定义大数据分析的通用性技术可以用如下特征阐述:对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据,不论是结构化还是非结构化数据从多个数据源汇聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键,其中包括移动设备,RFID,网络和不断增长的自动化感知技术。传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而,据估计超过80%的企业数据是非结构化的,即无法关系型数据库管理系统(RDBMS),比如DB2和Oracle完成的数据。一般而言,处于此次讨论的目的,非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息,包括:邮件和其它形式的电子通讯记录网站上的资料,包括点击量和社交媒体相关的内容数字视频和音频设备产生的数据(RFID,GPS,传感器产生的数据,日志文件等)以及物联网在大数据分析的情况下,查看远多于RDBMS的数据类型十分必要——这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍,从业务角度看这些数据也变得更为重要。更重要的数据需要更专业的人员进行分析。但传统的数据仓库技术对海量非结构化数...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部