2016年7月17号在北大举行的第五届中国大数据应用论坛上,中国新一代IT产业推进联盟技术分委会秘书长鲁四海做了题为《大数据技术及行业应用》的分享。他分享内容分为三个部分:第一,行业的趋势、技术发展是什么样的;第二大数据在传统行业落地的困难,大数据要用起来最终还是落在传统行业,因为IT技术的发展不能自娱自乐;第三,传统行业如何落地大数据。
大数据产业发展趋势
首先来看,现在的大数据产业正在发生着哪些变化。第一,首席数据官开始崛起。第二,可视化是推动大数据普及的一个重要的手段。大数据的真实用户,我们认为是业务不应该是IT人员。第三,大数据还有一个趋势就是智能化嵌入,一个是终端的嵌入,一个是在服务端的嵌入。第四是机器学习迎来上扬的趋势,它已经是未来数据准备和预测分析的必要工作。第五,开源应用会持续加速。第六,数据服务逐渐形成发展规模,这个主要有三个原因:一是数据这个事我们没有必要做一些重复的工作;二是数据服务促进共享。三是拥有数据的企业找到了一种创收的方式。第七,算法市场正在兴起,数据要去解决问题,中间需要一个算法模型来支撑。第八,互联网、金融、健康保持热度,智慧城市、企业数据化、产业互联网将成为新的增长点。
从前面的趋势我们也可以看出,传统行业将是大数据的主战场。数据对传统企业的巨大价值不用赘述,具体体现在四个方向:一是在决策模式上,在数据这个时代,以从流程为中心转向数据为中心;二是运营模式上,不再是以产品和服务为中心,转向以用户为中心;三是协作模式上面,原来是以供应链为基础的,现在是生态链为中心。四是企业组织模式上,原来是以层级为中心,现在是以员工为中心。
传统行业落地大数据的挑战
但是传统行业落地大数据也是有很多挑战的。比如我们之前在做咨询过程当中就遇到过这样的情况。有的IT项目交付的时候被推倒重来,大数据项目也可能出现这种情况。一个是需求之前是不准确的,二是我们这个系统建设速度跟不上需求的变化。
都说大数据的是驱动创新的最佳方式,其实创新还是有蛮多坑的。比如说,这两年大家都在讲小米的参与感。都去学人家微博微信的营销,然后以对人家的微博微信进行数据分,然后套到自己的产品上,结果一点成效都没有。但人家走量最多的红米首发选择了QQ空间,也得到了QQ空间的大力支持。依据数据创新大的风险在于,认识片面性和数据片性。
有的企业会通过投资收购方式去发展公司业务,投资者们达成明确而广泛的共识,差不多很多时候都是错的,因为大家在追逐热点,热点就有可能导致说大家都过独木桥。其实很多时候是在做重复性的研究,这个产业我们需要协作。
其实数据是很核心的一块,我们做大数据首先解决数据的问题。数据分成两块来看,分为内部和外部。内部的数据,一个是现在还有没有数据。我们刚才听到了去哪儿网可以通过一些技术手段,收集他的数据。那么一般的组织是不是能够达到呢?再就是数据质量如何。数据的质量就要分成两块,数据的有用性和数据的可用性。?
谈完数据就讨论技术,目前我们问三个问题,你的技术路线,走开源的还是闭源的。第二是私有部署还是使用SaaS的工具去解决你的问题。第三这点更细节,走Hadoop还是走MPP这条线,这跟企业数据特点是有很大关系的,比如说你的数据以结构化为主的,那MPP的模式就更适合你。
技术真的只是工具,数据其实是大数据分析过程当中的材料。只有材料、只有工具这能做出产品么?不行的,还有一个东西,它需要配方、需要生产的方法,这个就是算法模型。但是算法模型有几个问题一是对于法的人要求非常高;需要做大量的训练;你开发出来一个模型之后,应用效果也需要检验。
团队,至少有三个方向,首先是业务专家,他解决的问题是数据的可用性。然后就是IT专家,那样解决怎么存数据、获数据、管理数据。还有就是统计专家,他去开发一些模型。目前是这几种比较存在形式。还有一种是技术导向型的,再一个是以应用、业务为导向的。
如果完全自建团队,团队建设周期需要考虑;如果是合外部服务商一起合作,那么服务商的选择就极其重要了,在大数据初级阶段,大数据企业良莠不济。
传统行业如何落地大数据
前面说到大数据应用的主战场是传统行业,面对这么多的挑战,如何让大数据落地,核心是三个问题:未来走到哪里,从哪里开始,演进步骤是啥。
我们先看未来走到哪里。大数据的发展最终是智慧化,所以未来应该是以服务的方式嵌入到具体的业务中去。所以未来企业都应该有一个大数据服务平台,这个大数据服务平台通过实时的计算处理,实时响应各业务系统所需要的数据服务。大数据服务平台需要的数据、算法模型又从哪里来呢?答案就是大数据分析平台,分析平台包括数据准备、存储管理、计算处理、分析挖掘、人机交互等内容。也就是从未来的企业大数据平台包括大数据分析平台和服务平台。分析平台着重是离线数据的加工处理、算法模型的研发以及实现挖掘结果的交互;而服务平台着重在在线数据服务,直接为各业务环节提供在线的数据服务。如下图所示:
企业级大数据应用逻辑架构参考图
要实现这样的大数据架构,难度、复杂度都非常高,所以需要分步实现。有观点说先把大数据分析平台建起来,按照数据准备、存储管理、计算处理、分析挖掘、人机交互一层一层地建,然后建设数据服务平台。这种方式从技术的角度看是非常完美的,但实际操作难度大,而且容易出现平台使用率偏低的问题。原因主要有两个:一个是信心,一个数据。先说信心,这种方案前期大量的基础建设,在人、财、物上大最的投入,却看不到应用效果,同时在看不到效果的情况下要求业务部门进行大量的配合工作,都会让大家信心、动力不足。数据,这各路方案比较重视基础能力建设,但是现在是不是数据能够接入进来,取决于两个面,一企业内部数据化是不是达到一定的基础,二外部数据是不是已准备好了。我们认大数据落地应该是融入到业务场景里面去的,通过对一些企业大数据应用的调研,我们发现大数据应用可以分为这感知、探索、起步、发展、融合这五个发展阶段。如下图所示: 大数据应用5个演进阶段示意图
感知阶段,通过引入一些外部咨询、数据服务让整个组织感知大数据对业务发展的作用,通过培训提升组织对大数据的认识。然后在内部实现一些简单的报表实际应用到业务中去。
探索阶段,建设轻量级数据分析平台,实现核心业务数据分析,从而推动组织内部的数据化。开始数据应用、团队建设等方面的探索,可以引入外部团队进行数据战略的规划。
起步阶段,拓宽数据分析应用范围,在织织数据化发展到一起基础的前提下,建设数据治理体系,着手建设企业级大数据分析平台。
发展阶段,推动组织内部全面数据化,建设面向业务用户的大数据分析平台。如果说起步阶段更多是IT部门的参与,为业务部门所需要的数据服务还更多需要IT部门的配合;发展阶段业务部门将有更多的自主能力,IT部门更多进行后台支持,进行数据质量、平台的维护。
融合阶段,是大数据应用最终目标,通过数据服务平台的建设,将数据服务融合到业务各个环节,实现用数据驱动业务。
最后给大家几点建议:
第一,制定数据战略。这个战略不仅仅是口号,应面巾是有相应的机制、制度出来。
第二,建立数据化计划。首先得有数据,要把企业实现数据化之后才能更好的做数据的分析,而且在这个过程当中很重要的一点是要保证数据的质量。
第三,建立数据平台。重点考虑,这个数据放到这之后能够找得到,还有就是被读得懂;重客户参与,让业务人员参与进来。
第四,量体裁衣建立数据团队。
第五,定制好外部数据服务战略。
第六,活数据,动态模型。只有动态更新的数据才是最有价值的数据。模型上也要下功夫,数据是材料,平台是机床,而算法模型则是生产方法和工艺,是竞争的核心。
鲁四海还是首席数据官联盟发起人,在分享中也提到他们7月14号发布《中国大数据企业排行榜》,包括有产业地图、行业分析、大数据企业评价指标体系和五十多个维度的排行榜,为各位在选择大数据技术路线、产品、服务选择以及服务商判断方面提供一些参考。