中国IDC圈12月18日报道,大数据是近两年来的一个热词,围绕大数据的争论也是此起彼伏,各行各业依托其收集到的数据进行挖掘应用,进而产生直接的经济效益,创造更多的社会价值,这已经成为一种趋势。在众多例子中,最为惹眼的就是《纸牌屋》电视剧的发行,《纸牌屋》的出品方兼播放平台netflix,从3000万付费通用户的数据中总结收视习惯,并根据对用户的喜好的精准分析进行创作,每一步都是由大数据的引导,进而产生巨大市场利润。与此类似的,还有基于大数据分析产生的广告精准投放等,利用最小的投入获取大的营销效果, 为企业减少压力,但大数据作为新起之秀,其自身的不稳定性备受业界争议.
中科院计算所研究员,CCF大数据专家委员会秘书长程学旗
大数据的两大难点中科院计算所研究员,CCF大数据专家委员长程学旗先生表示:数据科学的稳定性、确定性以及数据的复杂性到底如何定义?这是目前非常不确定的。数据产生什么问题产生什么作用,我们每个人会拍脑袋决定。但是恰恰由于这个不确定性和复杂性导致了大家关注大数据的价值。大数据不是你想象得到的,而是用了之后才能发现它的价值,这是大数据的难点和魅力。从技术工程上,一个落地难的地方实际上还是数据共享的问题,这个不能谈泛泛的数据共享。国家相关部门和业务部门说做技术没有数据,做公司和做产品的没有业务结合,恰恰是公司业务部门自己部门之间都没有分享的问题,这样导致了很多问题。比如我们城市智能交通管理问题,如果把城市相关技术能够比较好的关联起来,按上面方法做应用做决策,甚至是在城市规划这块都是可以往前走近一步。但正因为各委办局的行业部门数据没办法整合到一起,同一个目标驱动下都很难做,其他的可想而知。所以这是大数据第一个面临的工程上的大的难点。
而第二个技术难点就是性能问题。性能现在我们做大数据分析,学校高校都可以做,但是真正像产生HADOOP,Spark的很难。要想上面的数据分析,数据挖掘数据管理的价值完全发挥出来,这个性能,从新的计算机体系结构的设计,网络的设计,虽然目前有很多开源的东西,有一些进展,但说已经解决了是比较难。另外还有一些国内的科研机构真正着力在这方面做的还是相对比较少。多数都是在做一个相对比较简单的,比如说这里做一个搜索,做一个语义分析,真正搭建一个很大的点做创新的东西,这个系统性的创新比较难。对我们来讲也许是体制和机制的问题。这个是最难的。
处理不等于技术现在业界认为处理等于技术?关于这种观点, 程学旗先生表示这是理解大数据普遍存在的一个误区。从大数据的生命周期来看,一开始是感知。数据分布在不同的地方,包括设备,传感器,感知传输是第一部分。涉及到搜集,涉及到新技术。传统上的也有,大多数情况下是如何协同感知,包括数据压缩,这是感动传输。下面还有存储管理,还有包括查询,还有放在内存里面计算的体系。第三个是数据计算,无论是结构化数据还是非结构化数据还是数据融合这种技术框架,像NAP的框架,这种框架直接支持到我们上面不同的做分析的算法,或者是业务模式,甚至包括交易,底下有什么样的技术框架,和空间管理模式,就会是什么样计算去支持他的业务应用。分析业务应用里面,包括深度学习和语音识别,这是后面相应的问题。所以我们来看大数据处理的数据体系,到底什么叫做大数据体系?还是得看某一个业务某一个需求,比如说电商,广告营销,做产品推荐那是数据化。还有城市安防或者是智能交通,这个监控系统,怎么识别怎么感知,这个类型不一样,大数据的处理和技术不太一样,主要看后面的生命驱动。
大数据历经几年的发展,趋势动态已吊足业界胃口,程学旗先生则敏锐的指出:2015年大的趋势就是更多的融合,融合讲到两个特点。第一个特点就是各种分析手段的融合。第二个是各种技术框架的融合,这种融合不一定是结耦合,可能针对数据的驱动。是新的应用的价值融合.