无法回避！那些制约大数据行业发展的问题……_大数据资讯

系列回顾：

趋势：大数据代表未来，投资力度增强

独家：最新大数据产业现状和主要子行业介绍

36大数据专稿，拒绝转载!

一、数据的归属权不清晰，数据资产型企业私密占有平台数据，制约着大数据的融合及发展。

阿里巴巴，这家集B2B、B2C、C2C电商平台与第三方支付于一身的巨无霸企业，在2009年前后开始低调试水小贷业务，并在之后成立了阿里金融事业部。基于阿里平台所累积信用和行为数据的全新风险管理模式，快速灵活的放款审批流程，为需求旺盛但供给远远不足的小微企业小额信贷业务打开了一条别样的路。阿里金融从出现开始便受到了广泛关注和讨论。许多机构和个人都向往之，也对其模式了解得清楚明白，但均默默然而无法复制。究其原因，就在于“阿里平台独有的沉淀信用及行为数据”——数据，阿里金融的独门利器。

无论已有的金融交易软件(如金太阳、大智慧等)，亦或电商平台、O2O平台、第三方支付平台，还是SNS 和其他交互数据源;现状是——原始数据存储在平台后端，被平台掌握者控制，数据的创造者(平台用户们)是否掌握与自己相关的数据取决于平台的开放性和接口提供。平台企业们互相独立地像挖矿一样在沉淀数据中淘金，各自取得一些不错的成果，但事实上数据的私密占有也严重制约着大数据的广泛应用和整体发展。

那么，数据到底是谁的?是平台企业的，还是数据创造者(平台用户)的?还是既是平台企业的，也是平台用户的?什么样的数据是公开的，什么样的数据是私密的?

一般认为，原始数据沉淀在平台上，平台实际占有并可以使用，但在未获授权的情况下不能提供给第三方，用户对原始数据的占有获取权及公开程度基本取决于用户与平台达成的协议(多为安装平台软件前的“用户须知”部分，用户除用脚投票外并无实际协议制定权);而平台对原始数据经过统计提炼获得的其他信息属于平台企业。

参考国外立法，数据是属于个人的，平台企业可以解除、使用数据不代表个人放弃对数据的所有权。国际立法趋势上看，信息主体的权利正在强化，如信息主体的遗忘权、转移权;信息控制主体的责任更加明晰，如明确了负有个人信息保护义务的服务提供商范围、要求服务提供商设置个人信息保护专职岗位，增加了服务提供商对侵权行为的通知义务，便于用户采取预防和减损措施。

国内的政策法规方面：2012年12月28日，全国人大常委会出台《全国人大常委会关于加强网络信息保护的决定》，对网络信息保护进行了原则性的规定;2013年7月，工信部出台《电信和互联网用户个人信息保护规定》;除此以外，《信息安全技术、公共及商用服务信息系统个人信息保护指南》作为我国首个个人信息保护的国家标准，虽然不具有法律上的强制约束效力，但具有指南性，亦可作为衡量互联网企业是否有过失的参考性标准;目前，我国正在起草《电子商务法》，强化对平台的监管。

二、数据有效性将直接影响到大数据的应用水平。

数据的质量

大数据就像砂金矿，为了开采出金子，人们需要不断的淘沙，淘出沙金，然后再经过冶炼获得千足金。而数据质量就相当于砂金矿的含金量和成色，良好的数据质量是挖掘价值的基本保障。

我们认为，数据质量主要涵盖两个大方面：一是基本质量，包含准确性、一致性、容量和更新率4个要点;二是可应用性，包含易识别性、易处理性、获取及时性、远程访问性和智能性5个要点;详情见下表。

洗数据的难度

在大数据应用中，有一项极其重要也极其困难的工作，那就是“洗数据”。洗数据就是把大量包含无效数据、分布杂乱无章的原始数据进行归并聚合，通过建立数据标准并执行来取得我们需要的分析样本的过程。

正所谓：Garbage In, Garbage Out! 数据挖掘的领域内有一个观点：如果数据准确度在60%的时候，你干出来的事，一定会被用户骂;如果数据准确度在80%左右，那么用户会说，还不错;只有数据准确度到了90%的时候，用户才会觉得真厉害。但是从数据准确度从80%到90%要付出的成本要比60%到80%的付出大得多得多。大多数据的数据挖掘团队都会止步于70%这个地方，因为再往后，这就是一件相当累的活，绝对少不了大量人力的工作。

我们这里使用用户地址举例说明，因为地址是用户自己填写的，有很多的坑，这就需要大量的洗数据工作。首先，第一类是假/错地址，因为有的商家作弊或是用户做测试，比如直接就输入“该地址不存在”、“13243234asdfasdi”之类的情况，这类的地址可以通过程序识别出来。然后，很多情况是很难通过程序识别出来，比如“宇宙路地球小区”，但这类地址可以被人识别出来。甚至还有连人脑都无法识别的，比如“北京市东四环中路23号南航大厦5楼540室”，这个地址根本不存在。其次，第二类是真地址，但是因为用户输入不标准，所以很难处理，比如将“建国门外大街” 缩写成 “建外大街”，“中国工商银行”缩写成“工行”; 比如错别字将“朝阳门”写成“潮阳门”;比如颠倒，将“东四环中路朝阳公园” 和 “朝阳公园(靠东四环)”;比如别名，将有的写开发商的小区名“东恒国际”，有的则写行政的地名“八里庄东里”等等等等。

像上面这样的例子多得不能再多了，如果希望提高数据可应用的程度，那么必然需要花大量人力通过编写程序和手动挑选来淘洗数据。而随着投入的边际效用递减，数据有效性的要求越高，则需要投入的成本就成倍甚至指数级增长。

三、适宜海量数据处理的软硬件成熟度不够，成本太高，普及率低下。

从某种意义上来说，“大数据”一直存在，只是受限于时代和科技，因为缺乏相应的数据记录、分析工具而无法实现。

市场上缺乏兼具业务场景普适性和海量数据处理能力的数据库软件大数据时代的到来，使得电子商务、公共管理、SNS等领域几乎每个与用户相关的业务数据量都在亿级别，某些平台的日系统调用可能达到百亿级别，而且历史数据不能轻易删除，所以需要能对TB甚至PB级数据进行高速处理的数据库。传统的关系型数据库，如Oracle,mysql, SQL Server等不能很好地满足用户需求，而较新的NoSQL数据库也依然没有达到适应不同业务场景的需求，目前依然需要根据用户不同的业务特征来选择适合的数据库软件。

私有云和云服务普及程度太低

所有企业和个人都或多或少有大数据应用的需求。但不同的实体有不同的出发点，更在意安全和自主性的企业希望构建属于自己的私有云;应用需求少，对成本更敏感的企业则需要在线的即时云服务。但受限于人们对云技术的接纳程度、云服务的成本优势尚不明显等原因，私有云和云服务普及程度偏低也大大限制了大数据的发展。

四、数据尚未获得真正意义上的定价和产业化。

数据的公开性与归属权不清晰直接导致了数据融合工作被割裂到一个个的独立的数据资产型平台内部。目前的大数据应用更多是针对公开数据和自有数据的价值挖掘，数据尚未获得真正意义上的定价和产品化。

在数据共享相对成熟的金融体系，以银行业为例，跨银行间的数据共享通道是人民银行与银监会分别牵头、管理的征信系统与客户风险统计系统，均采取“报送数据才能享受共享”及“信贷主体本身可申请及授权查询”的原则。在未纳入众多信托、小贷、互联网金融等机构数据的情况下，上述数据池的维护成本已经非常高。那么多新的交易和交互数据源如何进行互相融合，并形成一个个类似于金融投资业的万得、同花顺一样在细分业务场景下成熟且具有应用价值的产业化数据池?这是一个问题。

数据的产业化，从破除阻碍的角度看并关键在于两点，一是数据的公开性与归属权需要在法律及政策层面得到更明确的规范和指引，二是对同类业务场景下不同平台的数据制定统一的数据标准;从操作层面看，在应用范围的选择上，不应寻求一步到位或大而全，好确定到具体的业务场景和产品形态;从实现路径看，寄望于行政力量介入模式(类似于银行间整合)的可行性不高，也许“平台还数据于用户，通过第三方机构公证数据真实性，用户再授权进行跨平台融合”才是一条可以期待的路。