北京拓尔思信息技术股份有限公司 1 TRS 大 数 据 处 理 平 台 解 决方案 v2.0 越 来 越 多 的 国 内 外 互 联 网 公 司 和 传 统 企 业 都 已 意 识 到 数 据 资 产 化 和 规 模 化带 来 的 价 值 , 低 成 本 和 高 效 率 存 储 、处理、检索和 分析 PB 乃至 EB 量级的 数 据 成为极大挑战, 向数 据 要价 值 使得几乎每个行业 都 面临着大数 据 问题。以 IBM、Oracle 和 EMC 代表的 传 统 数 据 处理系统 成 本 高 、能耗高 、扩展性差, 而且将数据 的 存 储 、管理和 计算孤立开来 , 难以同时实现大数 据 的 全生命周期处理。需要研究成 本 低 、能耗低 、可扩展性强、存 储 与处理耦合协同的 大数 据 处理新型体系架构,提高 处理性能和 效 率 ,实现大数 据 规 模 效 应下的 数 据 可靠存 储 和 高 效 处理。 以 Hadoop 和 Spark 为代表的 一系列开源技术, 成 为大数 据 存 储 、处理和 分析的 主力军。互 联 网 企 业 广泛使用开源软件, 但开源软件直接用于企 业 的 大数 据处理有很多 挑战和 困难, 其主要原因在于需求、服务、研发和 运维体系完全不同,从需求的 角度, 企 业 应用中业 务逻辑复杂、数 据 来 源和 种类多 样性、单一的 大数据 解决方案无法满足企 业 复杂的 业 务需求,同时企 业 信息系统 对安全和 系统 可靠性要求很高 。从成 本 的 角度, 企 业 用户也不可能雇佣大批高 水平的 研发人员来 研发和 运维基于开源的 大数 据 应用系统 。标准化 的 、安全和 可靠性极高 、满足自身复杂业 务需求的 大数 据 技术和 产 品仍然是企 业 用户的 首要选择。 检索引擎的 功能和 性能决定了大数 据 系统 的 响应能力和 可用性,同时很多 大数 据 分析和 交互 挖掘操作也依赖于底层的 实时查询技术,因此在 PB 级数 据 规 模 、多 源异构数 据 (结构化 、半结构化 、非结构化 数 据 )的 场景下, 能够获得秒级甚至亚秒级响应成 为一个大数 据 应用系统 的 关键指标 , 只有这样, 才能保障复杂大数 据 的 及时有效 处理(规 模 大、变化 快、种类杂、价 值 密度低 )。此外 , 文本 挖掘是提升非结构化 数 据 分析效 果的 关键技术, 特别是中文文...