中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日大数据技术与产品创新分论坛中,中国信息通信研究院知识产权中心副主任张俊霞女士来给我们做《大数据关键技术专利态势报告》的分享。
中国信息通信研究院知识产权中心副主任张俊霞
以下是张俊霞演讲实录:
张俊霞:刚才前面很多专家都在大数据这个领域做了很多的分享,非常深入,也非常生动,我个人也是受益良多。下面我试着从另外一个不同的视角解读一下目前这个产业发生的一些最新情况。
因为专利是具有很好的公开性和可获得性,所以我们来通过这个知识产权的分析来看一看我们行业总体的情况和最新的动态。大家知道大数据这个领域实际上是一个很笼统的技术体系和框架,这里面主要包括应用层、数据平台处理层以及数据源这一层。实际上我们这个报告一开始是一个很庞大的报告,后来我试着讲了一下,两个小时都没有讲完,就压缩成了一个很精简的版本,对于这里面一部分的内容今天跟大家交流一下。
这张图我们来看一下,这是刚才我们说的大数据三层里面我们选择的一些关键技术的总体态势。因为大数据技术最近这几年大家都在不断的进行研发,所以这个专利的申请量也非常大。我们在这些专利检索的时候主要是检索了美国、中国、欧专局和日韩这些专利授予国和地区。从目前我们检索的这些地区来看,每一年的申请量是很高的,已经突破了年度申请量两千件的情况。特别是我们从这个发展趋势看,大家其实在大数据的平台层以及应用层关注的热度非常高,年度的增加量也是大的。另外我们看到主要的申请受理国还是美国,美国这个国家几乎占到了全球一半的受理量。另外就是中国了,也是占到了将近一半。像欧洲、日本、韩国这些地方,他们总体的占比大概是6%左右。从申请人来看,美国这边主要是IBM、微软、Oracle、EMC这些传统的IT企业。咱们国内也是比较传统的一些公司,像华为、浪潮、华三这些公司。我们知道华三原来是专注于通信,因为大数据这个技术,实际上它和各个行业融合的趋势还是非常明显的,这个公司这些年也申请了有将近300件,200多件专利,可见这个大数据的领域实际上正在吸引各个领域的人,包括我们看到互联网、电商都在加入到这个领域的研发过程中。
这是我们绘制的一张申请人的地图,包括数据可视化、商业智能、数据挖掘、安全等等技术,主要申请人的一个图。从这个地方我们看到,IBM、微软这些国外的企业,包括浪潮等一些国内企业,实际上在各个领域里面,他们的实力还是很强的,几乎每一个领域里面他们都是在专利申请量上榜上有名。同时我们看到一个有意思的现象,有一些行业的企业,国家电网公司,他们这个申请量也是非常大,而且几乎是在很多的重点领域里面都出现在了前几名的名单上。
下面先看大数据分析的应用层,首先是可视化技术,数据的可视化本身并不是一个新的命题,我们提到大数据的可视化,实际上给我们在可视化技术上会带来很多的挑战。我们可以看到,这个领域的专利申请量比较高,增长趋势也很明显。从2010年到2016年上半年5年多的时间里面,我们看到已经申请了680多件专利,有600多项专利申请。实际的数据会更高,因为2015年和2016年申请的很多专利还没有公开,我们是检索不到的。从目前公开的情况来看,这个增长是非常迅猛的。我们看到主要的申请人包括IT企业、互联网企业,包括有一些初创公司,实际上他们都是在申请。在个地方其实我觉得挺值得大家关注的一点,就是像美国这些企业,除了IBM、微软之外,有一些公司,像Splunk、Platfora这些公司他们申请量是很高的。但是从国内的申请企业来看,除了传统的IT企业、互联网企业、研究机构、高校以外,产品市场上做的比较好的,比如一些初创企业,比如永洪等等,他们的申请量非常少,也是希望大家能够关注这一方面的知识产权保护。
可视化的交互性、多维数据分析、实时展示、多屏互动,总体大家关注的热点还是比较明确的。但是我们从这几个热点方向的主要申请人上也看到,像交互性以及多维数据分析可能还是国外企业他们的优势更明显一些,国内企业实际上是在这个实时展示和多屏互动这个地方,可能也是做了很多的工作。同时我们也看到,可视化这个技术在各个行业里面有很好的应用,也推动这些行业的一些发展,并且在这一方面进行专利布局的事情大家也很重视,我们看到可视化和交通、电力、地图、社交这些传统的行业或者是互联网的一些业务融合,在这一方面申请了很多的专利。特别我们看到,像VR/AR企业也很重视,大家熟悉的一些Oculus和Magic Leap等公司,也申请了可视化的专利。
看完可视化我们看一下安全和隐私保护,我们知道大数据,特别是在云环境下的大数据肯定是离不开安全和隐私保护这个技术的,否则的话,这个产业也不会发展起来。我们看到这个领域的专利申请量很大,从2010年开始已经有700多件专利申请,大概有9%是进行了国际的申请,合并之后也有600多件专利,在这里面美国的占比高,40%多,国内中国受理的是不到40%。我们看到就像欧洲和日韩,他们在这一块和其他领域相比也是比较重视这个技术领域的专利布局。从国内来看,从2010年开始,大家申请的数量都差不太多,基本上一直在同步发展,这两条线几乎是交叉在一起。我们看到微软、IBM,还有一些通信企业都进行了很多的专利申请。在国内浪潮、华为、360这些企业,另外还有一些研究机构和高校申请的量比较大。
从这个领域大家关注的一些热点我们也找到这样几个,包括隐私保护这一块主要就是差分隐私的一些算法和保护方案,还有包括还有访问控制、大数据审计,从这几个重点方向的申请人上我们看到,实际上申请量大的,从全球的范围来看都是一些国外的企业,我们可以看得到,在这个领域我们找到榜上有名的有两家NPE公司,就是大家常说的专利海盗、专利蟑螂这样的概念,这两个公司都很大,一个是Thomson Licensing,还有微软下面的一个字公司,也是专门进行Licensing的。
刚才我们说到有几个大家都关注的重点领域,实际上在这些重点领域里面,一个是大家关注的点还是有一些一致性,但是在这个一致性里面也都体现出了一些不同的申请人里面技术优势上的一些差异。在这个差分隐私这一块,我们看到大家都非常关注在数据发布以及数据挖掘里面怎么能够进行数据的保护。包括在安全审计里面,可能大家普遍会关注在云环境下面怎么样对这个数据进行一个审计。包括这个同态加密,可能除了大家都会关注同态加密的效率问题,可能同态加密本身这种方法和其他加密方法融合使用的问题,也是大家进行申请的一个方向。包括在访问控制里面,比如怎么去进行一些访问控制策略的一些设计,包括基于这个用户角色的一些访问控制上面,可能都会是大家申请比较多的点。
看完安全隐私之后,我们再看一看BI这一块。从数量上来看这个量也不小,从2010年到现在已经有7千多件专利申请。从这个占比上来看,我们看到美国在全球里面占比非常高,刚才我们看到的一些点,基本上就是国内比美国稍微少一点,国内这一块占19%,美国基本上占了63%,是这样一个量。从每一年的申请趋势上来看,实际上国内的受理量和美国的差距在不断的拉大。从申请人上来看,美国主要是SAP、微软、Oracle这些公司,国内主要是浪潮、用友,还有国家电网、京东他们在行业应用里面也会申请很多的专利。从专利能力上,BI系统在向云端迁移,和云计算网络实际上是逐渐的融为一体。另外就是在前端的呈现上,可视化是进行专利布局的一个热点。
刚才向大家介绍的是关于大数据应用层的一些专利发展的态势。下面我们来看一下大数据处理平台的关键技术,先看一下非关系型数据库,这一块的专利申请量很大,从2010年开始我们就已经看到1500多件专利申请,从中美两国的数量对比上,其实咱们国内还多一点,将近全球的60%。但是实际上我们可能还是需要关注的,就是咱们国内这个授权率上,可能是特别低。从质量上来讲,还是要进一步加强。从年度申请的差异上来看,也是基本上同步,但是每一年咱们国内都会比美国要高不少。从申请人说来看,在华的主要申请人实际上都是咱们的本土企业,这里面包括传统的IT厂商,包括大的互联网企业就不说了。从全球来看,最主要的包括IBM、浪潮、微软,浪潮已经占到了全球前三的位置。
从非关系型数据库专利申请体现出的一些发展趋势我们也看到,实际上关系型数据库和非关系型数据库呈现出一个融合发展的趋势。这个融合主要体现在两个途径上,第一个途径实际上就是关系型数据库和非关系型数据库的互相支持,取长补短。另外一个融合的方法就是对于这种数据结构非常复杂,数据量非常大的情况下,可能大家更趋向于采用这种联合部署的一些方案。提到非关系型数据库,我觉得在这个里面比较有特色,有代表性的一种非关系型数据库就是文档数据库。在文档数据库里面,专利申请的布局量也是很有意思的。几乎90%的专利都是在华申请,像美国、欧洲、日韩一共占到全球的11%。在咱们国内这一块,主要申请人包括奇虎、长虹、浪潮这些企业,从这个专利体现出的一些特点,主要就是基于Web同步这一块。我们也跟踪了一些文档数据库他们在哪个开源许可协议上发布,发现Apache2.0,还有GPLV3受到大家的追捧,很多项目都是基于这两个许可协议发布的。
分布式计算已经发展了十几年,是一个老的概念,这个申请量还可以,大概全球有400多件专利,中国和美国基本上是各半的情况。从这个增长趋势上,也是从2010年开始,比国内早了两年,从2010年开始基本上大家就同步了。从2013年、2014年国内的申请量略高。主要申请人我就不再念了,也没有什么特别的。
从专利申请的一些技术发展的方向我们看到,在这里面大家比较关注的就是任务调度,从任务调度这一块,专利申请可能更多的是在美国申请,美国一个国家就受理了全球53%的量。从申请人上来看,我们看到中美两地申请人的差异还是很大的,咱们国内这一块主要就是高校、研究机构,国内可能是企业会多一点。
内存计算,这一块总量我也不念了。在内存计算实际上大家可能会关注的就是多极的一个存储体系,主要的申请人就是这些企业,而且看到内存计算主要受到大家追捧的像Spark、Tackyon这两个项目,都是采用Apache2.0这样一个软件协议下进行发布的。
还有一个流式计算,相比于批量计算专利量是非常少的,还有比较大的创新空间。我们也看到,关于像MapReduce这一块,中美两国差不多。但是对于一些流式计算等等,中国和美国相比,这个实力相比来讲差异还是很大的。从流式计算申请的主要方向包括数据传输类、架构类以及高可用类。从应用领域,实际上包括金融领域、互联网领域和物联网领域。
MPP这一块我简单说一下,传统的MPP在2013年的时候创新已经降低了,这一块随着MPP和分布式系统融合,实际上有一些融合技术又使这一块的专利申请量出现了一个小的高峰。从这个申请人上来看,这个技术垄断局面还是很明显的,这5家公司他们的专利申请量占到了全球的一半。这是主要一些申请的方向,刚才我们也讲了,MPP实际上也和分布式系统进行一个融合,这个里面可能也包括一些演进的路线,比如说SQL on Hadoop里面,像华为,还有刚才演讲的星环科技,他们都是主要的申请人。另外还有一个技术路线就是Shared everything,还有联合部署。