中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日大数据技术与产品创新分论坛中360系统部总监肖康向与会人员介绍了360安全大数据平台。
360系统部总监肖康
以下是肖康演讲实录:
肖康:我是做技术出身的,现在一直做技术,未来可能会做大数据及其产品。我今天的演讲主要是两个部分的内容,第一部分分享一下在360内部我们是怎么做大数据的,360内部大数据的情况是什么样子。第二部分是我们在360内部做大数据平台应用之后,我们想能不能把我们在互联网公司做大数据的能力输出到政府和企业里面去,能给我们的客户带来价值。我们讲一讲怎么把大数据的能力包容成一些产品,将来提供给我们的政府和企业的客户。
首先我们看一下360公司内部大数据的规模和能力,也是秀一下肌肉。整个在360公司现在有差不多4万台服务器用来做大数据,总共存储的数据量有1.6EB数据,每天新增超过1PB,每天有几十万个任务对这些数据进行处理,每天处理的数据也有几十个PB。我们这样一个大数据平台里面,我们可以在几分钟之内调度几十万个CPU进行计算,能够对于TB的数据进行秒级的快速处理。
360大数据的技术演进过程其实很简单,在很早期的时候没有用大数据的时候,也是用Oracle去做数据的分析,后来发现越来越慢,成本越来越高,扛不住了,就采用开放的技术路线。所谓开放就是硬件采用通用的X86的服务器,软件就是采用基于开源去定制优化,形成一套完整的大数据平台。这一套方案的特点相对于以前我们用IOE的方式,第一个是成本比较低,我们可以定制和灵活性比较好,我们可以去控制。第二是扩展性比较好,可以看到我们之前的几台机器,现在是几万服务器,这个扩展现在看来在软件层面没有太大的问题。
接下来我介绍一下这么多服务器究竟做什么事情和360几个典型的大数据的应用。首先是数据驱动安全,我们360是一家安全公司,360做安全和其他公司不一样,其他公司做安全早期做病毒查杀,很多是根据特征,传统的一些安全技术。360做安全是数字驱动安全的技术,通过数据来找出安全的问题,通过数据分析解决安全的问题,通过数据驱动安全背后就是大数据的力量。比如说我们的一些成果,我们的杀毒引擎全球的冠军QVM,还有我们新一代的威胁感知系统天眼,还有在我们360大数据平台里面存储了非常多的各种程序的样本,还有各种网址的黑白名单库,这个都是我们做大数据安全的一个基础和基石,其实这个也是360做安全和其他公司做安全很不一样的地方。
360的搜索,相信大家都知道,这个搜索基本上在整个中国占将近30%的市场份额,这个也是非常不错的,是第一个除了百度之外能够占据这么多市场份额的搜索厂商。其实大数据的快速发展时期就是前面两个,一个是数据驱动安全,第二个就是搜索驱动了我们大数据平台快速的发展,我也是在那个时候加入360。我们在搜索这个方面,比如说我们建立了一个千亿级的网页库。首先是这样一个庞大的网页库,把所有的中文网页都能抓下来存储起来快速访问,存起来之后还能够做分析,对它进行快速的索引,还要对实时的东西进行热点的跟踪。360云盘,相信在座的很多同仁都可能会用到360云盘去存储你的资料,去存储你的照片和你的视频等等,这个其实背后也正是我们团队在做的工作,就是我们通过大数据平台提供在线的海量存储的访问,差不多有上万台服务器提供几百PB的免费输出空间,不间断随时的访问,这是海量云存储、大数据存储的应用。数据分析和统计,这个其实在很公司,不管是互联网公司还是传统公司都是特别需要的,早期可能我们通过数据库这样的方式,后面越来越玩不转,就通过大数据的方式来做,每天有大量的产品运营的数据都会通过我们大数据平台进行分析和统计,比如手机助手、游戏、搜索等等,这样的产品都需要进行大量海量数据的分析。
以上就是在360典型的几种应用的场景,数据驱动安全、360搜索、360云盘、各种各样产品和数据的分析。
前面是360内部我们通过五六年的时间构建起来的几万台的大数据平台,为我们360自己的产品和业务提供服务。从去年开始我们在想能不能把我们这种大数据平台的能力和大数据平台的技术能够输出到企业和政府的客户那边去,所以说我们后面提出了360安全大数据平台这样一个产品,我们也正在不断的研发和改进过程中。
我们产品的架构其实也比较简单,分为四大块,中间这一大块是核心的大数据平台,包括底层分布式的存储和分布式的计算,这个不用说,基本上都是开源的东西,大家看一看就好了。在中间有一层分析层,这是给我们数据的分析人员,或者是数据分了软件对接使用的。包括结构化的SQL分析,复杂关联数据的分析,还有在大量的数据里面去做快速的搜索,还有我们能够进行大规模的机器学习、深度学习,这是四个数据分析的组件或者是产品。最上层的可能是一些大数据的应用,刚才我已经介绍了一些了,这里还有很多的应用。还有包括刚才我讲到公司里面各种产品的数据分析和统计,这也是一大类的应用,还有一些产品可以提供出来,这是核心的平台。
最左边是我们数据的接入,你的数据怎么接入到大数据平台,这本身也是一个问题,包括流失数据的接入,包括数据的导入等等。最右边是大数据管理,大数据平台要用好的话其实并不是特别容易,面临两个方面的问题,包括我怎么去管理这个大数据的平台,这个我们有一个产品系统的去管理我们的平台,还有一个就是我的数据分析师能够使用大数据做一些分析。大数据的安全在开源的产品里面刚开始考虑不太多,假设是在一个封闭的内网环境里面,安全的问题可能没有那么突出,我们要对大数据平台的安全进行加固,这也是我们360做安全的一个强项,这是我们360安全平台的架构。
360大数据平台的三个特点:第一是有超大规模海量数据成熟的实战经验。刚才我也介绍了,基本上我们的服务器是4万台,数据达到EB,这个在全球应该也是Top10的,超过EB级数据量的公司应该没有几家。在这几万台服务器上我们一直稳定了五六年,不停的改进,不停的维护。在这几年中,为360各种各样的业务提供服务,包括要求非常高的在线的毫秒级的实时访问,还有离线的非常多数据批处理的数据,还有更多的智能机器学习的算法,一些数据挖掘的算法等等。最关键的是我们通过这几年的积累,建立起来了一支一流的大数据研发团队。
第二360大数据的平台是基于开放的技术,硬件采用开放的X86的服务器,软件是基于开源的大数据一些系统进行定制,保证API,有更多的第三方厂商在上面开发应用,这是一个特别的版本。
第三安全和专业。我们认为大数据平台有它的通用性,但是也有专业性,我们更擅长的是在存储、处理安全数据的大平台,我们是一个安全数据的专业平台。为什么这样说?因为安全数据本身就不应该跟其他数据混在一起,我们建议是采用独立的方式去存储它,它有独立的要求,因为十月这些安全数据的人和普通的业务数据不一样,他访问的模式也不一样,也需要不一样的应用去使用这些数据。这种安全数据本身防护的等级也需要加强,所以说我们要对大数据平台进行安全体系的加固。
BigSQL,做结构化数据的分析,不管在企业还是在政府那边,结构化的数据是非常多的,但是结构化数据越来越多的时候,达到TB级、PB级的时候数据库不一定好用了,这个时候需要大数据来解决,我们提供了一系列BigSQL结构化数据分析的方案,能够快速的去分析结构化的数据。
BigGraph,其实SQL是典型的表结构的数据,很规整的数据。而实际在现实生活中,很多数据并不一定有那么规整,而且数据与数据之间的关联关系非常强,比如人和人之间的关系,在图里面就是点和边,在一个计算机网络里面,两个机器之间要通信,就形成一条边,这是一个非常通用的模型,大数据还没有很成熟的技术,在这一块我们也是提前做投入。这一块将来我们的目标是能够支持到百亿节点的大图,用这样的一个图的技术,我们可以解决很多像网络安全、国家安全、知识图谱、社交图谱方面的一些问题。
BigSearch,在数据越来越大的时候,前些年我们可能用Spark算一些东西就满足要求了,现在越来越看到交互式数据分析的能力,能不能从大量的数据当中快速找到我想要的数据,所以说我们需要对大数据具备快速的检索能力,这是BigSearch做的事情。
BigLearning,我们除了检索数据,在数据上做简单的处理之外,我们越来越多的应用依赖于很多机器学习的算法,甚至依赖于深度学习的算法。搭建这样一个平台并不是特别容易,所以我们专门把机器学习搭建了一个BigLearning组件,会进行算法库的扩充,支持深度学习。
BigPlorer,大数据交互系统,把大数据导入进来,在上面做管理,在上面做可视化分析,在上面运行调度的任务等等这样一些过程,我们希望在一个一站式的BigPlorer去做,这是面向数据分析人员或者是数据开放人员使用的。
BigManager,是面向运维管理人员使用的,把大数据平台搭建起来,对系统进行升级,进行日常的运维,在360内部每天都会遇到这样的问题。这样的话,通过一个系统和产品去解决这样的问题,可以非常大的提高我们的效率。我的演讲就到此结束,谢谢大家!