1 / 8 一份全面的企业数据产品选型对比(含数仓、报表、BI、中台、数据治理)�编辑导语:在如今这个数据化时代,数据对于个人和企业来说,其重要性都不可小觑。因此,有不少企业强化了数据工作,加强企业数据建设。接下来,本文作者整理了一份超全面的企业数据产品的选型对比,希望对大家有所帮助。 前言: 这个从上至下都在强调数字化转型的时代,越来越多公司重视数据,也越来越多的企业有数据建设的需求。 企业无论做任何数据工作,必然要有一定的信息化基础,也要有数据化建设的基础,少不了数据平台、数据应用工具,数据管理工具等。 关于企业数据建设这块,本人从事了近7 年,从技术到项目管理,做过乙方也做过甲方,也有多年和各乙方厂商打交道的经验,遂来分享选型“内幕”。 涉及到的产品有:数仓、大数据平台、报表、BI、数据中台、数据治理等。 2 / 8 数据仓库算是一个解决方案,视企业需求有不同架构(传统数仓、数据集市、大数据平台等),架构下有很多分层和组件,比起工具更需要架构师能力,具体原理就不讲了。 关于数仓的选型主要涉及:数据存储方案、 ETL、还有前端应用。 底层的数据仓库服务器通常是一个关系数据库系统,常用的方案有Oracle、db2、还有greenplum、teredata 等数据仓库专业解决方案。 传统的关系型数据库有:oracle、mysql、DB2。 大规模并行处理数据库:Vertica、Teradata(商业)、Greenplum (开源)。 Teradata 老江湖了,银行业使用较多,但成本也是真的贵,目前我们做项目较多的是用Greenplum,算是业界最快和最高性价比的高端数据仓库解决方案,Greenplum 是基于PostgreSQL 的,于2022 年开源。 我知道的国内四大行有3 家在用,5 大物流公司有4 家在用,不少公司在从Teradata 迁移到GP。 大数据平台主流的是:Hadoop+Hive。这套方案有多通用不用多说了,后面说到的大数据平台厂商也大多基于这个来设计平台产品。 3 / 8 ETL 工具,kettle、Tablend 和Penthao 用的较多。 Talend:基于Eclipse,具有很好的扩展性、稳定性以及可定制化(可以自己开发eclipse 插件),并且服从Eclipse 标准(如文件目录结构都是程序员熟悉的结构)。 Talend 具有很好的嵌入性,因为它生成的是Java 代码,这些代码可以很好的和其他系统结合在一起,这就要求使用者会java。 Penthao 是一个老牌工具,2022 年就发布了第一个版本,Kettle 是Penthao整个解决方案的一个组件,用来进行...