“数据融合需要标准规范先行,实现数据可见性、数据易理解性、数据可链接性、数据可信性、数据互操作性和数据安全性。”中国工程院院士邬贺铨在近期举办的“永不落幕的数博会”2020系列活动——“大数据产业生态创新发展高峰会”上表示。
那么,什么是数据可见性、数据易理解性、数据可链接性、数据可信性、数据互操作性和数据安全性?
邬贺铨通过举例来解释,数据可见性方面,在以色列特拉维夫,把城市内所有交通摄像头拍摄的视频在实时合成完整的城市交通视频之后,看到这个视频就像城市的领导坐着直升机俯视这个城市一样,能够看到不同时间用不同颜色标注交通管制、交通事故的情况,并实时通过5G、4G网络发送给行人、驾驶员,优化城市交通情况;数据易理解性方面,在抗击新冠肺炎疫情期间,肺部CT影像是新冠肺炎确诊的重要手段,但疑似病例的肺部往往需要拍300多张CT,而大数据可以把300多张CT照片还原为一个肺,这样医生就可以看到肺部有没有纤维化,了解肺周边情况;数据可链接性方面,要展示去年和今年的欧洲航空情况,可以把所有航空公司的飞行数据链接起来,形成整个区域飞行情况的数字孪生的交通镜像;数据互操作性方面,很多古罗马的遗址散落在现代建筑之中,如果想看古罗马的情况,可以把这些遗址照片合成一个视频,把时空分散的照片组合起来,生成一个反映古罗马街景的视频。对于数据可信性,邬贺铨认为,如果数据本身是不全面的或存在很多差错,那这个数据挖掘是没有价值的,这就需要数据质量管理技术,按照规定程序适当标记、保存和记录数据,在寿命周期内保护数据。而数据安全性,需要实现精细化权限管理和审计,定期评估分类标准并测试合规性。
“数据挖掘首先要建数据模型,而建数据模型需要了解模型开发背景和用途,以及谁来训练模型、这些数据从哪来、模型运用的效果如何,需要关注算法的完整性、可解释性、公平性和适应能力。同时,模型开发完成后还需要不断地检验、迭代和完善。”邬贺铨表示,目前,人工智能的算法经历了两次迭代,经历了从知识驱动到数据驱动的变革,但仍然不够完善,因为目前很多大数据应用仍然处于“大数据、大算力、小任务”的情况,而好的情况应该是“小数据、小算力、大任务”,这就需要人工智能向第三代发展,实现知识与数据双驱动。
邬贺铨认为,当前“大数据、大算力、小任务”的情况主要是指有非常多的数据和非常强的计算能力,但最后只完成了一件很小的事情,而且稳定性不够、可解释性差、应用场景窄。要想实现“小数据、小算力、大任务”,不仅需要提升人工智能算法,还需要提升大数据分析能力。而大数据分析不能只靠中心云,还要使用边缘云,因为边缘云可以就近处理数据,能够适用于对数据试验敏感的业务。
“智慧城市管理和工业互联网应用中有很多需要数据融合的应用场景,多元异构的数据融合能够盘活数据,通过数据挖掘提升数据的价值,发挥数据作为生产要素的作用。”邬贺铨表示,数据只有融合才有价值,但融合就涉及隐私和商业秘密保护问题。
“每个企业都希望利用其他企业的数据,却不一定愿意把自己的数据共享,因为觉得是商业秘密。那数据怎么融合?怎么做到既融合又不泄露每个企业的商业秘密?”邬贺铨表示,目前有很多解决方案,比如采用多方计算方式。此外,大数据分析有很多软件,其中有很多开源软件,但开源软件漏洞多,而且版本升级频繁,需要检查软件的安全性。
“大数据创新任重道远。”邬贺铨最后强调,数据挖掘和人工智能分析要面对海量处理能力、云边端协同、建模、小数据、人与数据融合、数据自身安全、隐私和商密保护等挑战,因此需要从基础理论跟工程实践多方面研究数据价值挖掘的问题,开发出更高效的大数据和人工智能分析技术。