一、大数据将成为新时期信息化发展重大突破的前沿
当今时代,人类社会步入了一个科技创新的重要时期,新科技革命及其带来的科学技术的重大发现、发明和广泛应用,推动世界范围内生产力、生产方式、生活方式和经济社会发生了前所未有的深刻变革。进入21世纪,世界新科技革命发展的势头更加迅猛,正呈现出新的重大突破。
信息科技将进一步成为推动经济增长和知识传播应用进程的重要引擎,基础研究的重大突破将进一步为人类认知客观规律、推动技术和经济发展展现新的前景。云计算、物联网和大数据将成为新时期信息化理论、技术和实践重大突破的前沿,为新时期信息化展现新的前景。
众所周知,数据自古存在。甲骨、树皮、绸缎都曾经是记录数据的媒介,现在都已经退出舞台;留声机、磁带机也曾经风靡一时,已难觅踪影;现在当红的信息技术,像个人电脑、智能手机、Ipad在不远的将来也将被陈列在博物馆。唯有数据,虽然不断地变换载体形态,但终将一直伴随人类走向未来。
物联网本质上是器物层面的技术,从大数据的视角而言,是采集数据的终端。云计算本质上是IT服务交付手段的变革,并由此引发一系列技术基础架构的更新。物联网和云计算都是信息技术发展到一定阶段的自然延伸,依然属于信息技术范畴。
大数据则是在信息化进程中自然形成的宝贵资源,大数据更接近把握信息资源的本质。有学者将大数据看作石油,大数据研究与自然资源利用发现、开采、提炼存在一定的相似之处,研究大数据,首先要研究各种有用的信息在何处,就是找矿;其次是把满足特定需求的信息收集过来,就是开矿;接着是把收集的信息按应用需求进行结构化处理,就是提炼,如同石油必须经过炼化才能变成消费用的汽油、柴油或作为原料用的聚乙烯、聚丙烯;最后是将这样的信息与具体的应用结合,使之发 挥作用,这就是基于大数据的应用系统,或称之为围绕应用的大数据管理系统,如同汽油通过加油站加到消费者的汽车内,石化原料变成衣服、设备或其部件。今天大数据已经成为驱动经济发展的要素。
“大数据”的内涵远远超越物联网、云计算等信息技术的概念,它的意义可以比肩“活字印刷术”的发明,大范围地消除信息不对称的现象,释放巨大的生产力,深刻改变社会的面貌,提升国家治理水平,革新科学研究的思想,促进产业间的跨界、融合和颠覆,并将极大地促进文明的传播、凝聚和升华。大数据是数据积累到一 定规模后引发的质变。大数据超越信息技术,使人们重新界定国家竞争的主战场,重新审视政府的治理水平,重新认识科学研究的新范式,重新审视产业变迁的驱动因素,重新理解投资的决策依据,重新思考发展的战略和路径。
二、大数据是经济增长和转型升级的强劲动力
报告显示,大数据市场正处在井喷式增长的前夕,IDC预测全球大数据技术和服务市场将在未来几年保持31.7%的年复合增长率,2017年总体规模有望达到478亿美元,中国大数据市场未来5年的年复合增长率将高达51.4%。
大数据产业正在成为战略性新兴产业发展的制高点,因为大数据激发商业模式创新,例如在商业嗅觉敏锐的互联网和商业金融领域,已有很多应用大数据提升企业核心价值、捕捉商业良机的案例。在电子商务领域,借助淘宝平台的大数据积累,阿里巴巴能够更好地掌握消费者的购买习惯和爱好,为商家提供更具针对性和附加值的深度服务;同时,通过大数据分析,阿里巴巴能够更容易、更准确、更量化地评价商家个人和组织的信用指数,大大提升融资效率,有效降低小微贷款的成本和风险。
大量案例表明,很多小规模企业,尤其是初创企业,通过大数据手段,能够“小而精”“快而准”地针对一个行业的实际需求,创造出改变世界的革新性产品。随着信息化的深化发展,大数据的核心价值将进一步凸显,成为商业模式创新的驱动力。党的十八届五中全会指出:“深入实施创新驱动发展战略,坚持创新发展,必须把创新摆在国家发展全局的核心位置,不断推进理论创新、制度创新、科技创新、文化创新等各方面创新,让创新贯穿党和国家一切工作,让创新在全社会蔚然成风。”培育发展新动力,就要充分发挥大数据资源这一新生产要素的作用,释放新需求,创造新供给,推动新技术、新产业、新业态蓬勃发展,拓展发展新空间中的 一个支点就是实施网络强国战略,实施“互联网+”行动计划,发展分享经济,实施国家大数据战略。特别是2016年4月19日习近平总书记在网络安全和 信息化工作座谈会上所作的重要讲话中明确提出:“当今世界,信息化发展很快,不进则退,慢进亦退。我们要加强信息基础设施建设,强化信息资源深度整合,打 通经济社会发展的信息‘大动脉’。党的十八届五中全会、‘十三五’规划纲要都对实施网络强国战略、‘互联网+’行动计划、大数据战略等作了部署,要切实贯彻落实好,着力推动互联网和实体经济深度融合发展,以信息流带动技术流、资金流、人才流、物资流,促进资源配置优化,促进全要素生产率提升,为推动创新发展、转变经济发展方式、调整经济结构发挥积极作用。”总书记高瞻远瞩的重要讲话为新时期发展大数据及其应用指明了方向,规划了美好的蓝图。
三、大数据是经济增长和转型升级的强劲动力
毋庸置疑,中国拥有丰富的数据资源和应用市场优势,拥有全球第一的人口数、互联网用户数和移动互联网用户数,国土面积广、经济体量大,拥有其他国家难以企及的海量数据资源和应用需求潜力。以北京公交为例,北京公交一卡通一天的刷卡量可达4000万次,其中地铁1000万次;使用中国联通的用户上网记录每秒 83万条,对应数据量为每年3.6PB。因此,IDC预计到2020年中国的数据总量将达到8.4ZB,占全球数据量的24%,中国将成为世界上第一数据大国和“世界数据中心”,丰富的数据资源为中国大数据发展带来了肥沃的土壤。
据了解,美国多年前已掌握通过基因大数据分析判断肿瘤的技术,但由于缺少病例样本进展缓慢,中国华大基因公司通过和腾讯公司及医院合作,得到了大量的样本数据,有关技术已经赶超美国。因此,中国互联网大数据应用具备全球领先的潜力,互联网作为天然的数据平台和数据集散地,是大数据发展的起源地和价值蓝海。
中国部分互联网公司在大数据应用方面已经处于全球领先水平。2014年互联网趋势报告中提到,依据月独立用户访问量评出的全球10大网站中有四家来自中国,分别为阿里、腾讯、百度和搜狐。目前,百度、腾讯、阿里等骨干互联网企业已建立了世界上规模大的大数据平台,单集群规模达到上万台,在分布式系统、 超大规模数据仓库、深度学习等关键技术上有所突破。
与此同时,我们还必须正视中国大数据发展亟待解决的突出问题。正如习近平总书记在讲话中指出的:“我们的国家治理中存在信息共享、资源统筹、工作协调不够等问题,制约了国家治理效率和公共服务水平。这个问题要深入研究。我们提出推进国家治理体系和治理能力现代化,信息是国家治理的重要依据,要发挥其在这个进程中的重要作用。要以信息化推进国家治理体系和治理能力现代化,统筹发展电子政务,构建一体化在线服务平台,分级分类推进新型智慧城市建设,打通信息壁垒,构建全国信息资源共享体系,更好地运用信息化手段感知社会态势、畅通沟通渠道、辅助科学决策。”
要看到我们在大数据关键技术以及核心技术等方面还有短板和不足。例如我们在数据处理分析、语音识别、视频识别、商业智能软件、数据中心建设和维护、IT咨询、信息安全等领域都已有代表性的企业,可初步构成获取、存储、处理、应用的产业链;但更要正视中国大数据发展亟待解决的突出问题,其中一个突出的问题就是政府数据开放共享不够,潜在价值大量淹没。政府和公共部门是大的信息数据生产、收集、使用和发布的单位。但现实情况是,海量的数据分散在各个部门、各个层级,彼此分割,形成一个个“信息孤岛”,且对社会、公众开放严重不够。由于数据开放程度不足,大量的政府数据处于“休眠”状态,而企业拥有的大数据技术和计算能力却无用武之地,陷入“巧妇难为无米之炊”的状态,潜在的价值损失不可小视。这就导致了政府大数据应用水平落后,缺乏数据治国意识。在传统环境下,管理者很难 全面获取公众需求、人口流动、人员结构、企业状态等数据,形成了做决策靠经验判断的惯性思维。
据一项针对中国主要部委信息化部门的调查,政府部门目前几乎没有使用大数据技术,近四成负责同志并没有意识到大数据可以帮助提升业务能力。三峡工程等重大工程建设过程资料均未电子化,大量纸质文档已经遗失;汶川和玉树抗震救灾等重大事件的过程也未形成电子化档案,珍贵的记录已经难以重新展现;社会信用、食品药品安全等一些社会管理和公共服务系统更多形成的是结果和状态数据,大量的过程和行为数据并未有效采集,占数据总量95%以上的非结构化数据被束之高阁。这些重大工程、重大事件的数据如能够得到合理保存并加以开发利用,将有极大的科技价值、经济价值乃至历史价值。
在大数据时代,数据控制力是国家战略控制力,掌握了数据就掌握了话语权。但目前我们对数据控制力尚未引起足够重视,数据话语权堪忧。目前,中国大数据发展 形态较为单一,核心技术仍受制于人,虽然以阿里巴巴、百度、腾讯为代表的互联网企业已经在大数据应用领域超前部署,处于世界一流水平。但与已经出台大数据国家战略的美英日等发达国家相比,前一阶段中国大数据发展主要表现为互联网企业自发的商业行为,发展形态比较单一,仍只是一个领域、几家企业的单点开花, 缺乏国家层面的统筹规划和全面布局,长此以往将影响国家对数据的掌控权和控制力,不利于提升国家信息优势和国家竞争力。
必须指出,由于立法滞后,个人隐私法律缺位,信息滥用引发焦虑。随着O2O模式的广泛应用,用户的个人信息已在不经意间流出,个人隐私数据泄漏带来的危险增大。中国缺少关于个人隐私和商业机密的专门法律法规和政策制度,对于公民隐私权和知情权的范围有待厘清。传统的个人信息保护制度,在大数据场景下变得越来越难以操作。政府如何建立规则、适度监管、合理开发个人数据的价值,也是必须正视并亟待解决的问题。
另外一个短板就是人才培育机制薄弱,分析型、复合型人才短缺。与信息技术其他细分领域人才相比,大数据产业对人才的复合型能力要求更高,尤其是具备综合掌控数学、统计学、机器学习等方面知识的复合型人才,同时又可承担数据分析和数据挖掘的数据科学家。中国大数据应用起步相对较晚,教育和职业培训尚不能很好地满足行业发展需求,目前缺口已经超过100万人。
四、认真学习习总书记重要讲话,扎实推进大数据应用
当前,举国网信界都在认真学习习近平总书记在网络安全和信息化工作座谈会上的重要讲话,这份长达11000余字的纲领性文献高屋建瓴,将大数据建设置于当今国际国内纷繁复杂的大背景之下,结合中国信息化与互联网发展的丰富实践,作出了重要论述,为我国大数据及其应用发展指明了前进方向,进一步明确了发展大数据的战略定位——归根到底是为了实现中华民族伟大复兴的中国梦。
农业革命增强了人类生存能力,工业革命拓展了人类体力,信息革命增强了人类脑力,使数据成为重要的战略资源。经济发展进入新常态,新常态要有新动力,大数 据可以大有作为;大数据要发展,必须贯彻以人民为中心的发展思想,让亿万人民在共享大数据的应用成果上有更多获得感。所以发展大数据已经成为新时期网信事 业和各个领域信息化建设的历史使命,新的大数据时代孕育新的机遇,新的大数据建设与应用肩负新的使命,那就是要进一步通过建设网络强国、整合资源,优化与合理布局,加强信息基础设施建设,强化信息资源深度整合,打通经济社会发展的信息“大动脉”,实施“互联网+”行动计划和大数据战略。
要深刻理解大数据发展具有影响国家竞争力和治理能力的战略意义。当今信息社会,数据量正在以每两年超过翻番的速度爆炸式增长,增速超过了摩尔定律。大数据 已经广泛渗透并深入应用于政府管理、商业金融、教育科技、工业制造、民生服务等经济社会领域,成为促进生产生活和社会管理方式创新变革的重要驱动力。
推动大数据发展是提升国家竞争力的战略抉择。大数据成为发达国家发展战略资源的新领域。积极发展大数据,已成为发达国家的战略和行动共识。通过发展大数据,获取和控制网络海量数据资源,提高数据掌控权和国家控制力,已成为国际竞争的战略焦点。近几年,美、英、澳、法、日、韩等多个国家将数据管理上升到了战略层面,将大数据思维应用到公共管理和政府治理中。数据已成为重要的国家基础性战略资源,对于海量数据的运用正在引发全球新一轮的生产力革命。
未来信息社会建设要重点开展四方面工作:一要继续加大对信息基础设施建设的支持力度,鼓励技术与服务创新;二要积极开发信息资源,促进数据开放共享,促进 协调发展,缩小数字鸿沟,实现面向发展、广泛包容的信息社会;三要促进信息技术和应用向社会经济的更广范围和更深层次拓展;四要坚持自主创新与国际合作相结合,解决信息社会建设中遇到的困难和问题。
数据主权成为大国竞争博弈的新焦点。在大数据时代,国家竞争力将部分体现为一国拥有数据的规模、活性以及运用数据的能力。通过掌握移动终端、操作系统、浏览器、平台等信息世界的入口,相当于掌控了信息世界的“总开关”,可以通过信息流掌控物质流、资金流,掌握商品供求关系,进而可在国际贸易、大国竞争博弈中占据主动。分布各地的云端服务器也为主权国家带来了数据监管的难题,数据安全直接关系到国家安全,网络空间的数据主权正在成为大国博弈的新焦点。
今后政府履行职能更加离不开大数据的支撑,离不开信息资源共享,进一步推进政务信息公开和共享已成当务之急。当今社会结构变化更加需要政府协同工作,信息成为国家软实力和竞争能力的重要标志。网络信息是跨国界流动的,信息流引领技术流、资金流、人才流,信息资源日益成为重要生产要素和社会财富,掌握信息的多寡成为国家软实力和竞争力的重要标志。信息技术和产业发展程度决定着信息化发展水平,要加强核心技术自主创新和基础设施建设,提升信息采集、处理、传播、利用、安全保障能力,更好惠及民生。
五、贯彻实施《促进大数据发展行动纲要》关键要扎实推进大数据应用
2015年7月,国务院颁布了《促进大数据发展行动纲要》(以下简称《纲要》),这是国家全面推进大数据发展的战略性、纲领性文件。《纲要》将全面指导未来3-5年大数据的发展和应用。《纲要》全面阐述了中国推进大数据发展的指导思想、发展目标、主要任务和保障措施。
第一,大数据应用上升到了强国战略的高度。《纲要》明确提出,数据已成为国家基础性战略资源,中国将致力于建设数据强国,网络空间数据主权保护是国家安全的重要组成部分。这个高度的提法是首次,彰显和强化了大数据的发展和应用在国家战略中的地位。
第二,促进大数据发展主要落实到三个方面的任务。《纲要》无论是发展意义、指导思想、主要任务还是重点工程,都主要围绕三个方面进行阐述,即大数据提升政府治理能力、大数据促进经济转型升级和大数据加强安全保障。例如,促进大数据发展的意义总结为新动力、新机遇和新途径,即大数据成为推动经济转型发展的新动力,大数据成为重塑国家竞争优势的新机遇,大数据成为提升政府治理能力的新途径。在《纲要》中的三条主要任务也分别落实为:加快政府数据开放共享,推动资源整合,提升治理能力;推动产业创新发展,培育新兴业态,助力经济转型;强化安全保障,提高管理水平,促进健康发展。
第三,《纲要》确立了中国大数据发展的核心理念和管理机制。数据的共享和开放是国家促进大数据发展的核心理念。共享和开放贯穿于《纲要》的始终,既要推动政府数据开放共享,建成国家政府数据统一开放平台,也要推动社会数据共享,形成全社会开发利用数据的氛围,还要把政府数据、社会数据和其他各类数据互联互通起来,释放出数据红利。《纲要》也提出了“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,这将建立起全社会的数据思维和数据文化,从而 全面促进各个领域大数据应用的自主性和自觉性。
第四,《纲要》明确划定了大数据产业生态体系的范畴。《纲要》提出了培育高端智能、新兴繁荣的大数据产业发展新生态,一是发展大数据与传统产业协同发展的工业大数据应用、新兴产业大数据应用和农业大数据应用等新业态、新模式;二是发展大数据产品和解决方案,包含大数据软件、硬件和核心基础产品的大数据产品体系以及各行业大数据应用的解决方案;三是建立大数据基础研究和安全可信的大数据技术体系,其中涉及海量数据存储、数据清洗、数据分析发掘、数据可视化、 信息安全与隐私保护等领域关键技术研发。以大数据应用、大数据产品和解决方案、大数据基础研究和技术体系为基础,共同建立起政产学研用联动、大中小企业协 调发展、万众创新创业、公共服务保障支撑的完整的大数据产业生态体系。
第五,《纲要》规划了十大重点工程和一系列国家和区域大数据平台建设任务。《纲要》提出十大工程,这是推进大数据发展的抓手,围绕工程的推进,将建设起政府数据统一共享交换平台和开放平台、国家大数据平台、数据中心等一系列国家和地方大数据平台,并在经济社会各个领域推进大数据应用示范和试点,这将兴起大数据建设的热潮,政府和社会将投入大量资金发展大数据,并以大投资来带动大数据市场的繁荣,可以期待这将在未来五年形成一个规模巨大的大数据及其关联领域的市场。
为贯彻落实《纲要》,共同推进大数据及其应用创新蓬勃发展,国务院同意建立由发展改革委牵头的大数据部际联席会议,在促进大数据发展部际联席会议的第一次会议上,部际联席会议召集人、国家发改委徐绍史主任主持会议并讲话,会议审议通过了《促进大数据发展三年工作方案(2016-2018)》《促进大数据发展2016年工作要点》《政务信息资源共享管理暂行办法》和《政务信息资源目录编制指南》等四份文件。
会议强调,要深刻领会实施国家大数据战略的重大意义。一是紧抓“数据大国”向“数据强国”转变的新机遇,发挥数据资源的战略作用,建设数据强国,积极构建国家竞争新优势。二是把握工业经济和信息经济交汇发展的关键期,深入发掘数据要素潜力,激活数据要素,有效催生经济发展新红利。三是顺应互联网时代形势, 将大数据引入政府治理,实施数据决策,努力打造政府治理新手段。
会议明确,全面落实《纲要》,应找准着力点和突破口,围绕三个关键环节精准发力:一要加快数据共享开放,开展政府治理大数据示范应用,推进“互联网+政务 服务”,深化数据创新应用;二要推动产业创新发展,做好大数据产业发展的规划,推动好工业大数据、互联网与制造业的融合发展;三要科学规范利用数据,建立完善大数据管理机制,加快相关法律法规和标准体系建设,强化数据安全保障。
会议认为,2016年应加快推进“三大建设”:一是加快制度体系建设,尽快出台《政务信息资源共享管理暂行办法》;二是加快综合试验区建设,开展制度创新探索,推动数据创新应用,破解大数据发展难题;三是加快重大工程建设,坚持需求导向、统筹整合,充分发挥市场的决定性作用,助力经济转型发展。
六、需求导向,突破大数据应用关键技术
为贯彻落实《纲要》和大数据发展部际联席会议第一次会议精神,扎实推进大数据及其应用,遵照《促进大数据发展三年工作方案(2016-2018)》以及 《促进大数据发展2016年工作要点》,当前一个重点工作就是要围绕大数据应用,以需求导向为原则,加大大数据基础设施建设的资源整合力度。各部门、各地区都要结合“十三五”规划,统筹布局国家大数据资源、平台、数据中心等基础设施建设,以大数据及其应用为目标,引导鼓励各地区各行业从基础设施投资向数据 资源投资转变。推动国家人口库、法人库、空间地理库等基础信息资源和健康、社保、能源、信用等重要领域信息资源的建设和汇聚整合。充分利用现有企业和政府 数据中心,统筹建立低成本、高效率的大数据基础设施和区域性、行业性数据汇聚平台,当前一定要避免以大数据中心名义,重复投资、盲目建设云中心、大数据中心等基础设施,形成数据中心产能过剩。
因此,当前各领域都应该把大数据应用总体设计、关键技术研发、业务数据模型等作为推进大数据发展的首要任务,明确发展大数据首先要大力推进数据整合,整合现有资源,构建形成大数据应用服务平台,该平台应该具备支持数据整合、数据存储、数据计算、数据分析、数据安全等平台服务功能。
大数据应用服务平台的定位应该首先承担数据存储中心、计算中心、分析中心和服务中心的职责,为分析决策和实时采集应用统一提供数据接入、存储、计算和分析服务,之后逐步构建分布式应用支撑平台或云服务架构,按照业务和数据特性,支撑各类业务应用。其中存储中心是数据归集中心,实现各类数据的统一集中存储管理,计算中心提供各类数据计算加工处理的基础组件与运行环境。分析中心提供各类数据分析挖掘以及展现的基础组件与运行环境。服务中心提供多类型的数据对外 对内服务手段,包括自助式分析、计算服务和数据服务。
大数据存储中心的关键技术包括研发统一的存储适配接口,利用分布式存储技术研发海量文件存储技术,研发同时支持事务性数据和分析型数据的新型关系型数据库,实现统一的可视化数据管理等。
大数据平台计算中心的关键技术包括分布式运行引擎和协同计算功能,搭建分布式运行集群化环境,研发统一的资源管理功能,既能满足流计算、内存计算、批量计算和查询计算的功能,还能满足多租户不同计算模式下的资源分配与隔离。
大数据平台分析中心的关键技术包括研究数据模型映射转换业务语义、数据挖掘等,研发业务语义设计器、自助式分析足迹、数据挖掘等,形成自助式分析工具集。大致可分为三部分:自助式分析组件,业务语义设计器和数据挖掘组件。
大数据平台服务中心应包括数据服务、计算服务和可视化管理服务等,其中数据服务主要包括数据融合访问模型建立,研发数据路由和数据网关,形成数据服务组件,支持对各类数据的标准SQL操作、安全权限控制和数据缓存,支持各类应用统一访问各类数据源。其中计算服务主要包括研制计算任务规范、研发多模式计算任务管理、计算流程配置等功能,提供各类计算任务的上传、发布、调度和管理能力,支持用户自定义计算任务和通过配置获取结果的通用计算任务。
大数据平台的服务中心还要制定标准化的组件调用和数据交互接口规范,融合各类展现控件,集成包括GIS以及各类图像图形展示软件,形成大数据可视化组件库,支撑可视化应用构建。
各个领域在依托现有资源基础上,构建形成大数据应用服务平台应遵循问题和需求导向原则,从逻辑上构建大平台、微应用入手、组件化的原则,采用面向对象的建 模技术,结合范式建模方法,完善公共信息模型,形成标准,形成一体化业务数据模型,使之覆盖所有业务链服务链的各个业务领域,实现横向业务关联与纵向业务 模型贯通,并可进一步挖掘数据价值。
围绕大数据应用服务平台建设,当前在大数据关键技术研究中,应进一步关注如下问题:一是多源数据采集技术,包括结构化数据采集、实时数据采集、文件数据采集、消息队列采集等。二是海量异构数据存储技术,包括分布式文件系统、列式存储数据库、非关系型数据 库、关系型数据库等。三是多模式计算技术,包括分布式批量计算、流计算、内存计算等。数据挖掘分析技术,包括数据挖掘算法、分析模型构建、R语言等。四是大数据安全技术,包括数据加密、访问控制、数据审计等。五是重点领域的全业务链的统一数据模型的研发,包括标准、视图等。
在大数据平台研发中还要关注以下几点:数据整合组件,数据管理组件和作业调度组件,资源调度组件和集群管理组件、安全管理组件等。
大数据关键技术需要进一步在以下几点创新:集中式和分布式混合架构的大数据平台,多源异构数据融合模型及其统一数据网关;进一步研发各领域一体化业务数据,实现横向与纵向业务协同贯通;进一步研发可兼容多种计算模式的资源动态分配与隔离组件,实现计算任务合理化调度;进一步研究颗粒度更加细化的业务行为特征分析模型;进一步研制细分行业和地域部门的预测监测模型。