项目名称:海量信息可用性基础理论与关键技术研究首席科学家:李建中哈尔滨工业大学起止年限:2012.1-2016.8依托部门:信息产业部一、关键科学问题及研究内容2.1关键科学问题为了适应海量信息管理基础设施建设的需要,针对国内外海量信息可用性管理的研究现状和发展趋势,本项目将围绕多种类型(不仅仅是关系数据库中存储的关系型)和以多种方式存储(不仅仅是集中式存储)的海量信息,以信息一致性、精确性、完整性、时效性和实体同一性为核心,针对前面提出的五大挑战,以保障信息可用性以及源于信息的知识的可用性为目标,拟解决“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题,创建一套完整的海量信息可用性理论、方法学和技术体系。下边定义拟解决的三个科学问题。1.量质融合管理量质融合管理是指数据、信息和知识三个层面上的量与质的融合管理机制。现有的海量信息基础设施只关注信息的规模、系统的处理能力和可扩展性,重在“量”的管理,忽视了信息“质量”(简称“质”)的管理。目前,劣质信息普遍存在,已经在实际应用中产生了严重后果,造成了巨大损失。信息质量的管理已经成为目前的巨大挑战问题。为此,我们必须研究信息“质”的管理问题,将信息管理从“量”的管理拓展到“质”的管理,最终实现“量”与“质”的融合管理。信息来源于数据,知识来源于信息。数据的质量决定了信息的可用性,信息的可用性影响知识的可用性。为了彻底实现量质融合管理,我们必须在数据、信息、知识三个层面研究量质融合管理问题,提出完整的理论体系,解决关键技术问题。2.劣质容忍原理劣质容忍原理是指在包含错误的信息和知识上完成正确或近似计算和推理的原理。数据、信息和知识的错误几乎无处不在已成为不争的事实。“劣质容忍”是指在信息和知识存在错误的情况下,如何完成正确或相对正确的计算。为了实现劣质容忍,我们必须完成如下两个挑战性任务:第一,自动发现并修正信息和知识的错误,将可校正的劣质信息和知识修复为完全正确的可用信息和知识,支持正确的计算和推理。第二,很多信息和知识的错误无法完全修复,经过部分错误的修复后,这些信息成为部分正确的弱可用信息和知识。在这种情况下,我们必须解决如何在弱可用信息和知识上完成满足应用精度要求的近似计算和近似推理,取得满足用户质量要求的相对正确结果。3.深度演化机理深度演化机理是指信息和知识的多维度、全方位演化的内在机理。信息不是一成不变的,它会随着时间和物理世界的变化而发生演化。源于信息的知识会随着信息的演化而进化。现有海量信息和知识管理在演化方面只关注完全正确的信息和知识,并仅限于探索随时间演化的过程。实际应用要求我们探索信息和知识的深度演化机理,即以可用性为核心的多维度、全方位、趋利、竞合演化机理。在信息的深度演化方面,我们需要研究多源信息在时间、空间、形态、粒度等多个维度上正向协同的演化机理。在知识的深度演化方面,我们需要研究由原始物理数据到有简单语义的信息、再到有丰富语义的知识的纵向演化机理以及知识被不断发现、聚合、更新的横向演化机理。2.2主要研究内容本项目将围绕“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个关键科学问题,针对各种类型和不同形式存储的海量信息,以一致性、精确性、完整性、时效性和实体同一性为核心,沿着“数据→信息→知识→应用”的路线,深入系统地研究多模态海量数据高质量获取与整合的理论和技术、海量信息可用性与量质融合管理的基础理论、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算的理论和算法、海量弱可用信息上知识发现、演化与服务的理论和技术,提出完整的海量信息可用性的基础理论和关键技术,并将基础研究成果转换为有效的实用技术和算法,研制确保可用性的海量信息与知识的量质融合管理原型系统,以中国数字海洋(国务院908专项)和社保与经济普查信息为对象,建立复杂物理信息和管理信息两类主要信息的可用性保障应用示范,验证基础研究结果的可用性和有效性。本项目的具体研究内容如下。2.2.1高质量多源多模态海量数据的获取与整合...