大数据产业发展的核心目的是什么?其目的是服务于各个行业的产业升级和业态创新,而不是惟大数据而大数据,既不应陷入大数据发展盲区,更不要掉入少数学院派技术“权威”挖掘的“大数据”陷阱。
“大数据”一词越来越火辣,煽情全球。出于一种职业精神和科学良知,江濡山及其团队,近几年来深入调研剖析“大数据”产业到底是怎么回事。从美国的SaaS、亚马逊、谷歌、苹果、思科到中国的华为、腾讯、浪潮及航天某某研究所;从美国北卡三角地、旧金山的硅谷、波士顿的哈佛及MIT到中国的北京中关村、深圳前海、清华大学及北大……江濡山团队通过诸多神不知鬼不觉的走访、调查和分析,终于可以撕下“大数据”神秘的面纱。
江濡山“不吐不快”的调查分析结果,廓清了大数据概念,同时建议我国发展大数据产业要从两方面发力,即加速大数据应用的系统工程建设和基础数据工程建设。详情参见下文。
1.撕开“大数据”的神秘面纱:原来如此!
技术进步及社会演进,正在推动整个人类的生活生存方式、消费结构全面转型,并加速迈向数字化时代。可以预见,未来十多年,“大数据”思维及技术创新,将更猛烈、更深刻地颠覆传统产业形态。这意味着:几乎各个产业领域都将迎来基础数据工程建设及大数据应用系统建设两方面的爆发式发展的机遇。因此,说大数据产业是值得挖掘的金山银山,一点也不过分。但这并不等于“大数据”是万能的、大数据产业的发展可以随心所欲。
现在,中国经济运行虽然已经步入严寒季节,但“大数据”一词热得烫嘴,无论是政府官员、产业精英,还是IT领域、高等学府、高技术开发区,如果开口闭口不说“大数据”,似乎都不好意思“混在当下”;如果嘴里偶尔能蹦出一两个诸如Hadoop、Storm、Spark、IOE的时髦名词,就更显出一幅业内高手的神态。其实,我要说的是:“大数据”并不是什么新鲜玩意儿,自从工业革命开始以来,数据科学就越来越得到人们的重视,只是到了21世纪初,数据应用的积累,深深触动了产业重构和业态创新,“大数据”一词才应运而生。“大数据”并非数据越多越好、运算量越大越好,其综合含义应当是:针对并服务于某个特定目标的立体数据生态系统,而且这个系统中的前端功能模型、中断数据架构及后端算法及编程,是一个统一体系。确切地说,“大数据”概念的内涵及外延,主要体现在三个层面:
一是基于行业趋势及产业业态创新的需求端“功能模块”的构建,这是一个需要具有大数据思维逻辑的产业经济的命题。比如:如果要优化一个区域的旅游产业结构、投资结构、资源配置结构,可以通过完善产业供给链达到延伸游客消费链的目的,这就需要建立区域性的动态运行的“旅游产业大数据”信息系统,而此举首先要做的是:产业发展物理模块的策划、设计、搭建和论证。这项工作是实施这项大数据项目的“前提”。
二是基于产业发展功能模块基础的“数据模块”的搭建设计,这是一个紧密服务于应用端诉求的有效数据关系分析、确定算法的复杂过程,这也是数据建模及搭建特别功能属性的数据仓库的过程,需要用人力思维与计算机算法的有机结合。目前,这个领域的技术才刚刚开始向产业领域渗透,未来可拓展空间很大。
三是基于数据模块进行的数据挖掘、采集、清洗和应用编程。这个过程实际上是“技术工人”的工作,多数计算机及信息系统专业的人都可以完成,如果在熟练应用传统计算机信息系统应用软件的基础上,熟练掌握Hadoop、Spark、IOE等操作系统,就可以完成此项工作,但更多的工作量还得基于Excel来完成,因此,把Excel玩熟玩透是玩好大数据的基础,或许更有价值。
综合来看,大数据人才的价值主要体现在上述的前两个层面。
2.一流的大数据人才到底隐身何处?
当下的中国乃至全球,能真正看清“大数据”的真正面目,并通过数据革命引领产业创新的优秀人才屈指可数,到是人云亦云、跟风弄潮者确实不少。可以不夸张地说,全球范围类,类似Perntland(MIT)、Norvig(Google)、Geoffrey Hinton(Google)、鄂维南(北大)、Andrew Ng吴恩达(百度)这样的大数据专家,全球也不过二三百人,而赴其后尘者的新锐大数据专家,估计全球不过千人左右。
所谓的大数据专家,不单是计算机及信息系统领域的专家,也不是行业及专业领域里的权威,而是善于把应用诉求端与数据技术服务端,用大数据思维整合到一起的复合专家,通俗来讲,是市场行家、产业及产品专家、有效数据资源识别及配置高手的复合体。大数据专家既可以是一位在某个行业领域里具有这三项功能的复核人才,比如:MIT的Perntland、谷歌的Norvig、百度的吴恩达等大牛,也可以是具有这三项功能的人形成的“人才组合Team”,比如亚马逊的物流物联研究小组。真正的大数据专业人才之所以太稀少,是因为他们的思维细微深深扎根于市场,他们是从市场上“野蛮”生成的,绝非闭门于高等学府可以修炼出来的。
上述的这些大数据专家到底隐身潜伏在哪里呢?俗话说:大隐隐于市。他们就隐身于一流的科技公司埋头钻研。纵观全球,百分之七八十的优秀大数据专业人才,都就职于全球顶尖的科技公司,在高等学府和基础研究机构的大数据专家的确很少。苹果、亚马逊、谷歌、高通、SaaS、思科、华为、腾讯、阿里、百度等等全球前50家顶尖企业,几乎垄断了大数据专家,然而,他们未必意识到自己就是一流的“大数据”专家。相反,有不少深居高等学府、科研机构和咨询公司的一般的计算机及网络技术专业人士,却自诩为“大数据专家”,在全球范围内混吃混喝。
今天的中国,我们看到的是不少伪专家一方面给企业家、投资人灌迷糊汤,一方面给政府官员贴膏药。有些所谓的大数据专家,头顶不少学术桂冠,虽然立项后拿到了政府和投资人的项目经费,却老虎吃天不知如何下口,索性关起门来,只停留在“Excel”的基础上闭门坐车,盲目地捣鼓数据库。值得警惕的是:投机心态驱使下的一些缺乏实战经验的“学术权威”,正在编制“大数据”陷阱,政府及投资人如果不能认清“大数据”的真面目,很容易就掉入“陷阱”,盲目投资。
3.中国要振兴“大数据产业”得先做好两件事
很多人在玩弄新概念和时髦名词方面,似乎有天生的优越基因。现在,不少人开始大肆忽悠“大数据”产业,其中不乏别有用心的投机者和半生不熟的技术官僚。从目前情形看,围绕“大数据”产业,正在形成技术官僚“小圈子”。在有些人看来,名利双收的机会又来了。很显然,从中央到地方,政府财政对大数据产业的研究及扶持资金,规模空前且不断增多;市场投资人也越来越青睐大数据概念及其应用的产业。但是,针对大数据的研究成果,全世界尚没有考核标准和评价办法。对此,应当引入“泾渭分明”的透明机制,并重点向骨干企业、有应用价值及创新技术含量的企业倾斜。可谓“泾渭分明”?就是:应用研究与基础研究分轨运行---针对企业,侧重于大数据产业的应用投入;针对高等院校、科研机构,重点支持与大数据关联的基础领域的研究。切记不要被不熟悉市场、不了解产业特征、知识结构老化的“技术官僚”所把控。
中国作为全球经济产出体量大、消费需求规模大的新型经济体,大数据产业对推动各个产业领域的创新发展,具有不可估量的发展空间。但是,振兴“大数据”产业,既不能盲目受产业领域专家的影响,也应当突破“技术官僚”的小圈子,面向市场、面向一流的科技企业、面向年轻的技术队伍。大致来说,应当在两个方面发力:
一是加速大数据应用的系统工程建设。这是最主要的、也是见效最快的,此举需要具备“乔布斯式的组合混搭思维”加速推进中国的大数据产业发展,即:用大数据思维模式把行业、产业专家与数据专家有机结合起来,直面各个行业领域的产业转型及业态创新。
二是加速基础数据工程建设。这是一项基础研究,是慢功夫,需要在西方现有的技术软件基础上创新研发,短期内要有突破性的成果还比较难,但要舍得投入。这方面应当由数据技术专家领衔和主导,在高等院校和对应的科研机构完成。从长远看,此举是提升国家大数据技术水准的战略举措。
切记:不要将上述两个方面混为一谈。但这与“产学研一体化”不矛盾。
4.关于“大数据产业”,需要强调的几个概念
1)“大数据产业”并非一个独立的产业,他只是一个服务性的工具。
大数据技术的研究及应用,是以市场诉求及产业经济发展需要为基础的,它不过是服务于特定目标的技术手段。因此,目前最最紧缺的是行业性的大数据专才,比如医学领域急需要懂得人体生命科学及健康学的具有大数据思维的专家。
2)大数据思维比大数据本身更重要,物理模块比数字模块更有价值。
因此,大数据人才并非只有数理学科的专业人才,而是混合型人才,比如:能够写计算机编码程序的人比比皆是、身价也不高,因为他们只知其然不知其所以然。然而,大数据时代的“架构师”不是单纯的数字建模和初级的行业知识,而是能够独立策划设计出产业创新发展物理模块的专家。也就是说,玩“大数据”的技术圈子,若单纯靠Hadoop、MR、Storm、Spark、Kafka、Dataflow这些数据处理技术,只能搭建出没有使用价值的空中楼阁,其研究只能自困于小圈子而渐渐窒息。因此,如果大数据的研发及应用,只是数据技术的“圈内人”,那的确是一种悲哀。
3)“没有数据源”是个伪命题。
我最近跟不少谈吐大数据的人士交流过程中,大家普遍有这样的感叹:中国的数据垄断与分割很严重,搞大数据研究缺乏数据资源,根本得不到政府各个职能部门及中国电信、中国联通这样的数据,怎么搞研究?而且也没有数据交易市场。其实,“没有数据源”这是一个伪命题。事实上在美国、在欧洲、在日本,数据作为一种核心的资源,在很多领域、在很大程度上也是不公开的,即使美国硅谷一些专家呼吁建立数据交易市场,那也是太过天真的想法,不可能完全实现。越是大数据时代,数据资源越是宝贵,任何机构和个人越是不会轻易泄露自己的数据信息。其实,并不是数据越多越好、数据流量越大越好,有效数据及数据关系才是最重要的。因此,大数据研究与应用,在很大程度上是研究模式和研究方法问题,如果把握好应用端的明确诉求,采集有效数据样本并不是太难。比如:类似Hadoop(2006年发布的分布式数据开发应用程序),Spark(UC Berkeley AMP lab发布的数据并行计算框架软件)、Dataflow(数据流)等等大数据软件及名词,最初都源自谷歌等IT企业及美国一些理工科大学的实验室。它源自实践也必然生存和成长于实践。因此,推动大数据产业发展的“数据源”主要来自自身,第三方研究服务者的数据主要来自需求方的委托。特别需要说明的是,一个真正的大数据专家应当具备的最基本的“真功夫”是:根据产业发展需求设计有效的数据样本并建立模拟应用系统,然后在实践中验证。
4)市面上诸多大数据培训忽悠的成分很大。
前不久在南方某城市参加一个大数据主题的专业会议,会议主办方根据经验预估,设定了150人的接待规模,可实际上报名到会的翻了一倍。因为会议主题是“金融业大数据”及“大数据培训研讨”。参会人员多一半为国内各地高校的计算机及数学应用院系的负责人。参会者流露出的一大困惑情绪是:现在“大数据”很热,可是高校竟然连本像样的“大数据”教材都没有,这方面的师资力量十分脆弱;而社会上诸多“大数据”培训班,基本上是忽悠人。有的培训机构甚至承诺:一周培训就可以具有“数据架构师”的能力,薪资翻几番。
我曾在北京的一个大数据高级研讨班上,私下请教一位大数据授课专家(他自称承担国家重点科研项目):如果不懂一个行业或者产业领域的市场特征及业务结构行为逻辑,怎么搭建数据模型。他回答说,涉及行业及产业需求端,我们不负责,我们只负责根据具体的要求完成数据建模和确定合适的算法。我又问:如果需求方不具备大数据思维,陈述跑偏或者你理解有误,最后的产品成果无法有效运转怎么办?他说:那责任在委托方。可想而知,现在市面上的大数据专家们在忙什么?大都忙着攒项目圈资金,然后恶补美国十年前就已经发布的诸如Hadoop这样的计算机软件。学几个计算机软件并不难,但是研发创新这样的软件并非易事,如何有效应用这些软件,也需要很好的内功。
5)大数据的应用有盲区,也有局限。
在很多人看来,未来的数字世界,大数据无所不能。这实在是一个误区。大数据技术的进步及应用普及,主要还是基于应用端的诉求。然而,数据分析和应用,有两个关键点:一是数据的有效性及数据资源配置条件的设定;二是不同数据流、数据模块之间的线性及非线性关系。如果不具备这两个前提,后续的数据分析、数据仓库构建等,就无法完成,更无法实现OLAP(Online Analytical System)功能。还有一些领域永远是不可知的,比如:包括人类在内的动物的思维神经系统的数字化,这方面几乎是上帝设计的“密码箱”,如果人类真能够打开它,那不是科技进步,而是人类的灾难。大数据不是万能的,老老实实地基于人类经济及社会进步的理性诉求,推动大数据产业的理性发展才是正途。因此,未来中国大数据产业的发展,应当着眼于中国经济社会发展进步的未来趋势及生产力水平,构建不同行领域的大数据生态循环系统。