电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

《实时大数据平台规划设计方案》

《实时大数据平台规划设计方案》_第1页
《实时大数据平台规划设计方案》_第2页
《实时大数据平台规划设计方案》_第3页
实时大数据平台规划设计方案一、相关概念背景1.1 从现代数仓架构角度看待实时数据平台现代数仓由传统数仓发展而来,对比传统数仓,现代数仓既有与其相同之处,也有诸多发展点。首先我们看一下传统数仓(图 1)和现代数仓(图图 1 传统数仓StreamrngDataDevices&SensorsDataLaDemographicsD^taBatchETOperationalDataStore-飞―-Federate^QueriesOrganistionalPita〜ThirdPartyOata—R7IItII律AHadoop*—1—MackilneiY|(t 叭DataWarehouseOLAPSemanticAdvancedAnalyticsSelfServiceReports&ModelsSafaMartOperAticnaiReportingHistoricalin-MemoryAnalyticsModernizinganExistingDW图 2 现代数仓传统数仓大家都很熟悉,这里不做过多介绍,一般来说,传统数仓只能支持T+1 天时效延迟的数据处理,数据处理过程以 ETL 为主,最终产出以报表为主。现代数仓建立在传统数仓之上,同时增加了更多样化数据源的导入存储,更多样化数据处理方式和时效(支持 T+0 天时效),更多样化数据使用方式和更多样化数据终端服务。现代数仓是个很大的话题,在此我们以概念模块的方式来展现其新的特性能力。首先我们先看一下图 3 中 MelissaCoates 的整理总结:AdvancedanalyticsWhatMakesaDataWarehouse"Modern"在图 3MelissaCoates 的总结中我们可以得出,现代数仓之所以“现代”,是因为它有多平台架构、数据虚拟化、数据的近实时分析、敏捷交付方式等等一系列特性。在借鉴 MelissaCoates 关于现代数仓总结的基础上,加以自己的理解,我们也在此总结提取了现代数仓的几个重要能力,分别是:数据实时化(实时同步和流式处理能力)数据虚拟化(虚拟混算和统一服务能力)数据平民化(可视化和自助配置能力)数据协作化(多租户和分工协作能力)1)数据实时化(实时同步和流式处理能力)数据实时化,是指数据从产生(更新至业务数据库或日志)到最终消费(数据报表、仪表板、分析、挖掘、数据应用等),支持毫秒级/秒级/分钟级延迟(严格来说,秒级/分钟级属于准实时,这里统一称为实时)。这里涉及到如何将数据实时的从数据源中抽取出来;如何实时流转;为了提高时效性,降低端到端延迟,还需要有能力支持在流转过程中进行计算处理;如何实时落库;如何实时提供后续消费使用。实时同步是指多源到多目标的端到端同步,流式处理指在流上进行逻辑转换处理。Varietyofdatasources;|null 祜DmvirtuaFixation*integratiofl內amotionofselfservicewlurionsAu...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部