气象数据的“大数据应用”浅析2014-03-2417:03:19作者:国家气象总局沈文海来源:CIO时代网摘要:气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。关键词:气象数据大数据1、引言据统计,2011年全球的数据规模为1.8ZB,这些信息将填满575亿个32GB的ipad,以这些ipad做砖石,足可以垒建起两座中国的万里长城。而到2013年,仅中国当年产生的数据总量就已超过0.8ZB,2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB.【1】而届时全球的数据总量预计将达到40ZB,如果将这些数据全部刻录成蓝光光盘,则这些光盘的总重量相当于424艘满载荷的尼米兹航空母舰。数据量暴增的速度令人瞠目结舌,我们的确已进入“大数据时代”.很快地,“地理大数据”、“水利大数据”、“环境大数据”、“金融大数据”、“互联网大数据”乃至“气象大数据”等名词陆续出现在有关媒体上。“大数据”逐渐成为近来人们谈论最多、思考最多的技术话题之一。一些人憧憬于“大数据”可能带来的十分珍稀的高价值信息和珍贵商机,也有许多人困惑于目前所知“大数据”的应用范式,以此研判着可能给本行业带来的变化和新的业务契机--气象部门也是如此。做为抛砖引玉,笔者拟就如下问题提出自己的看法:(1)气象数据是否具备“大数据”的核心特征?(2)业界公认的“大数据应用”的主要形态是什么?(3)“大数据时代”背景下气象数据应用中新的价值领域在何处?需要首先具备哪些必要条件?(4)气象信息技术领域当务之急需要解决的关键技术问题。2、大数据的现实以及气象数据的体量构成2.1大数据的行业分布就数据量而言,中国的大数据近期具有如下行业分布特征:(1)互联网公司目前国内的互联网公司,拥有总计约2EB的数据,而其中的互联网三巨头BAT(百度、阿里巴巴、腾讯)占有了其中的3/4(约1.5EB)。(2)电信、金融、保险、电力、石化系统这些行业及企业数据量分布较为平均,就每个企业(或运营商、部门)而言,大致都拥有10PB以上的数据,且年增量都在PB级以上。总和则有数百个EB的存储数据和数十EB的年增量。(3)公共安全、医疗、交通、电子政务领域城市:随着平安城市、智慧城市等工程的推进,监控摄像头遍布大街小巷。一个中等规模城市每年视频监控产生的数据约300PB.最保守估计(含定期循环清除),每年能够保存下来的数据在数百PB以上。交通:飞机航班往返一次产生的数据达TB级。列车、水陆路运输每年产生并保存下来的各种数据视频、文本类数据约达数十PB.卫生:整个医疗卫生行业,一年保存下来的数据可达到数百PB.电子政务:一个智慧城市的电子政务所产生的数据每季度约达200PB.而调查显示,未来1~2年中国政府部门的数据规模超过100TB的将达到53.3%,有将近三成(33.3%)的用户数据规模是10~50TB.(4)其他,商业销售、制造业、农业、物流和流通等领域随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流运输等等这些传统行业的数据量将呈现迅速增长态势,但目前这些行业数据量尚处于积累期,体量不大,多的达到PB级别,基本约近百TB甚至数十TB级别。【2】(5)气象数据气象部门需要永久保存的数据目前约4~5PB,年增量约1PB.由此可见,以数据量而言,在整个大数据市场中,新兴的互联网行业巨头BAT,以及电信、金融、保险等行业占据比重较大。相对而言,气象数据无论总量还是增量,较这些数据大户至少低3个数量级。2.2大数据的特征早在2012年,业界便已就大数据在体积、类型、速度和价值这四个方面的特征达成了共识,即所谓大数据的4V特征:Volume(大体积):体积巨大是大数据的最根本的特征,体积不足够大,任何数据都不能称之为“大数据”.一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。Variety(多样性):类型和来源渠道繁多是大数据的第二个特征。大数据非但体积巨大,而且内容繁杂,数据种类繁多,包括网络日志、音频、视频、图片、地理位置信息等等;这些种类繁杂的数据来源于多种不同的渠道。多...