中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日大数据技术与产品创新分论坛中星环信息科技的创始人&CTO孙元浩分享了在互联网+时代,Hadoop推动现代数据仓库技术的深刻变革。
星环信息科技的创始人&CTO孙元浩
以下是孙元浩演讲实录:
孙元浩:Hadoop已经经过了10年的发展,从2006年到今天刚好是10年时间。这10年当中,Hadoop从雅虎一家开源的技术平台,逐渐的被更多的互联网公司使用,到今天在很多的企业当中在使用这个新的技术,我们也见证了这个技术的飞速发展。它的应用的广度也超出了原来Hadoop设计的想像,早期的Hadoop是为了仿造Google的搜索引擎建造的,今天我们看到Hadoop的应用已经开始深入到企业的各个应用领用当中。当时我估计在2016年、2017年是新技术战略的转折点,意味着这个技术已经到达了一定程度,在各个领域当中可能会有飞速的应用,可能会比去年和前年有一个数量级的提升。
我今天首先会介绍一下我们公司,技术人员可能对我们公司很了解,很多其他行业的朋友不一定了解我们公司。我们是一家专门做Hadoop技术的公司,我们从2013年成立到现在有3年时间,发展还是比较快的。我们专注在底层开发下面,我们开发的代码量接近1千万行,我们的产品加起来将近3千万行。在去年下半年被Gartner提到我们公司,我们也是全球四大Hadoop厂商之一,我们今天也有幸成为Gartner数据仓模拟象限的一家中国公司。描述了哪些产品具有哪些特点。现在大家可以看到,这边大部分都是一些大型公司,我们被放在了最右边的位置,表示国外媒体对于我们技术的领先性和完备性还是有高度认可的,但是我们的规模会比他们低。目前来讲,我们客户的数量还是比较多的。
下面我们来介绍一下Hadoop的应用。刚才讲到,我们认为Hadoop未来一段时间会进入战略整合点,被客户接受的速度会迅速提升。最左边是一个报告,是收费报告,统计了美国市场上面Hadoop应用的分类,大部分Hadoop用户主要是60%的客户,20%的客户是交互式BI的,用于报表式工具跟Hadoop对接,还有国内的可视化公司也在跟Hadoop对接。在美国有几十家这样的公司专注做数据分析和可视化,所以这个应用场景大概有25%。还有6%的客户是做轻量级的应用,主要是使用了Hbase分布式系统来做数据的查询,这个比例不是太高,有6%。还有4%的客户是用来做文档数据库,5%的客户是用来做流处理。
右边这场图是我们星环从几百个客户当中统计出来的分类,有一定的代表性,但是不是全部的数据。从中可以看到中国市场和美国市场有比较大的不同,这个数据我们提交上去,他们已经把我们的数据放到他们的报告当中去了。我们看到有56%的客户做数据仓库,我们做数据仓库有一定的优势,我们非常完整,支持分布式处理,支持这个存储过程,所以有一部分客户已经从数据库直接牵引到我们的上面来。这种新的业务模式在用到国内的时候还不是这么快,有一类是比较特殊的,就是我们做OITP用的,做简单快速查询的应用比较多,这其实反应了我们国家的数据量比美国的客户大很多,我们中国一个省的用户就是美国AT&T全国的用户,这一块反而有一批客户在用这种简单的数据库,2%的客户在做文档数据库,这也反映了在美国NoSQL有4%的使用率。有一个不同的地方,流处理这一块在中国的应用场景比较多,有10%的客户,解决我们有10%在做流处理,主要是分布在实时的金融交易、传感器网络和工业4.0里面,2008年、2009年我们国家建立了大量的传感器,包括物联网,这一块使得我们在客户当中有比较多的在用这种做数据处理,这也反映了我们国家的工业4.0其实已经具备一定的条件了,可能比美国还要更领先一些。
大家可以看到,大部分的Hadoop用户都在用这个技术来做数据仓库,我们后面讲一下为什么是这种场景。数据仓库是一个比较全的概念,通常不是指一类技术,是所有数据的组合,会是所有数据的集散地,企业会把所有的数据放在数据仓库里面对外提供服务。过去这么多年数据库面临一些挑战,数据增加比较快,传统的数据库已经不能处理,效率提升得比较慢,我们碰到一个很大的客户,是一个著名的厂商,这是一个显著的瓶颈。原来的关键数据库只处理结构化处理,现在需要一些新的技术处理半结构化、非结构化的数据。随着数据仓库越来越多,用户也越来越多,通常用户有上百个数据源,上面支撑几十个业务部门,甚至是几十个分支机构,一个银行可能有30几家分行,这些分支机构访问数据的时候都通过这个数据仓库,对数据的隔离、访问资源的管理就变成了一个迫切要解决的问题。
传统数据仓库是T+1的,在当天分析前一天的数据,但是更多的企业希望能够对数据进行实时分析,希望能够做到T+0,这一块也是对数据仓库构成的一个挑战。这一块就是有一些国外的咨询机构和公司提出的,希望能够做实时的数据处理。刚才我们看到有一个概念是几年前提出来的逻辑数据仓库,能够处理多种数据源,做数据管理。还有一个特点也是现在大家在使用新技术的时候一个驱动力,原来是对于过去历史的统计。今天大家发现,以前做数据模型,比如说像银行里的十大主题模型,或者八大主题模型,他们有几千张表,中间的表可能有上万张,关系相对来说是固定的。一旦你的业务发生变化,你可能要对整个层面做修改。今天大家希望有一个自助的方法,能够用机器学习的方法发现数据的管理,而不是发现统计的结果,甚至是统计报告对于他们不够。所以这一块现在有的提出来一个设计模式,就是我不需要知道这些数据它们之间的关联关系,我是通过机器学习的方法,机器自动来学习发现他们的规律。这实际上也对应了大数据的4V,数据量、数据变化、数据实时性以及数据挖掘,刚好是4V。其实在数据仓库里面,其实也是沿着这个方向演变出来的四个不同的设计模式。
在解决数量大的问题上面大家已经形成了共识,需要用分布式的方法,用横向的方式。从早期的单机到90年代的并行数据库,是把数据库的引擎并行化了,把计算并行化了,但是存储仍然是集中化的,集中化的存储仍然是一个瓶颈。后来把计算分离了,但是计算的引擎不具有可扩展性,容错性比较差。到了Hadoop的时候,大家发现可以有一种因的模式,同时对数据和计算进行分布式计算,对于数据进行分布式存储,同时兼顾扩展性和容错性。这一块基本上大家发现,这个计算模式是处理大规模数据的一个最佳模式,这个扩展性和容错性都有很大的问题。所以很多的Hadoop引擎都回归到这个计算模式上来。我们在SQL这一块做的比较突出,能够跑完整个过程。现在我们最新发布的4.0版本性能又比这个有两倍的提升,所以现在除了100TB的用三台机器,其他的都可以用两台机器完成。
分布式计算是解决了性能的问题,那么怎么解决数据源的问题,怎么解决这个问题,我们提出了逻辑数据仓库的概念。逻辑数据仓库要满足三个特性,首先需要有一个集中化的存储,把所有的数据全部集中起来,而不是分散在不同的地方。另外需要有一个数据联邦的概念,能够跨多种数据源,能够有统一的接口。通过统一的SQL层,或者是一个界面能够来访问到所有的数据源,中间有结构化数据,还有非结构化数据。另外必然是需要一个分布式计算,同时上面有多租户管理,还有原数据管理,整个形成了一个逻辑数据仓库的概念。逻辑数据仓库其中一个非常重要的特性就是要做数据联邦,能够访问多种不同的数据源。这一块我们有一个比较好的产品,可以跨多种数据源进行交叉。
在逻辑数据仓库当中需要用资源管理,要实现两层,数据保护通过不同的访问规则来控制对数据的不同访问,其次我们需要对资源进行一个比较好的隔离。这一块我们现在也采用了一些尝试,我们现在发布了一个产品是TOS,我们的调动引擎是完全自己开发的。另外一个题外话,我们在明年的产品当中有自己的存储引擎,所以在未来的一段时间之内,大家看不到Hadoop的影子了,我们已经几乎把这个东西全部实现了。
在这一块,上层我们会借助这个容器把这个东西所有的标准化容器放在一个里面,所有的服务都可以自动通过组装方式来构建这个应用。整个实现了两个特点,一个是解决了应用标准化的问题,通过容器来实现,另外是实现了运维自动化的问题,整个平台我们通过调度器来进行管理,自动扩容、自动收缩,出故障会自动修复,在运维上极大的减轻了IT部门的压力。这一块因为采用容器,隔离性非常好,可以使得不同部门之间共享一套平台。
这个设计模式是借助流处理,我们在这里不详细讲了。现在随着工业4.0的发展,物联网越来越多,大家需要通过新的技术对数据进行实时处理。过去能够完成数据的实时存储,但是不能做实时分析。应用的需求总是希望越来越复杂,需要对这个计算平台的能力越来越高,这一块我们需要在流上面支持复杂的SQL,比如说存储过程,甚至是机器学习。目前这一款产品也是我们比较有特色的,要远远超过国外友商的产品,我们可以在流的产品上面支持非常复杂的SQL,也能够在流上做机器学习。这也是我们用流数据来实现的一个重要手段。
这个设计架构基本上要从原来对于历史数据的分析转变成对于数据规律的探索以及未来的预测上面。这一块我们采用的方式,其实是分成几个阶段,首先是数据清洗,选取特征,再就是建模,还有就是把一个计算模型能够应用或者是展现,作为决策支持。我们在这一块我们是通过SQL引擎来做加工,对外完整的提供接口,所有的对表的措施都是用原生操作来实现的,内部我们会自动的定义。另外我们也是现在的算法,分类、聚类、反样回归的神经网络,做时序的关联分析,都已经整个用分布式方法重新实现了一遍,也提供了二元的接口,用户可以直接来做这个数据建模。这一块我们现在看到在国内应用不是特别多,大概只有8%的客户在用机器学习。当然趋势是非常快的,有一些客户建好这个Hadoop平台以后,在想怎么从数据当中发掘价值,就需要这种产品。其实有很多咨询机构,包括大数据应用的第一个难点是没有一个好的工具来做数据挖掘,不能从数据当中发挥价值,妨碍大家去应用这种新的技术。我们的目标是希望提供一个非常易用的,但是非常强大的一个工具,让大家能够非常容易的发掘数据的价值。
综合起来我们看到,在整个数据仓库建设当中,我们可以借助新的平台,就可以把原来的架构重新设计一下,整个数据源通过实时和半实时的方式,可以进入一个逻辑数据仓库,甚至可以跨多个数据源进行访问。同时底下是容器化的平台来对外提供数据的隔离和访问控制。
我再介绍一下工信部电信研究院最近在做的性能测试,这个其实是结合了国内20多家大数据的企业共同制定的一个标准,是比较公平客观的标准,也是能反映大数据的行业应用的一些需求的特点,同时包括今天上午我们也给其他大数据厂商做了一个证书的颁发,我们希望有更多的厂商能够参与到这个测试当中,也给客户提供一个客观公正的标准。
我今天的演讲就到这里,谢谢大家!