今天,关于大数据技术的研究与应用已非常普遍,许多国家的公共部门和民间企业对此进行了大量的投入。韩国政府将大数据列入“政府3.0”政策的核心课题之一,大力推进大数据的实际运用。国防领域也作为“国防3.0”一环,具体实施国防大数据示范项目。
本文介绍了大数据基本特征及国防大数据示范项目,并提出国防领域大数据扩大与发展过程中需要注意的事项。第一、大数据的应用必须夯实大量数据甄别/存储、培养数据专业人才等基础。第二、大数据的应用必须源于明确的、具体的目标。第三、大数据应用需能够感知危险,并加以有效应对。
当前,大数据的应用范围正逐步扩大到自动翻译、医院诊疗、微尘预测/预防、气象预测、提高电力网效率等各个领域。今天,大数据已超出单纯的IT技术范畴,成为第4次工业革命的核心动力。正因为如此,许多国家的公共部门和民间企业对此进行了大量的投入。韩国也以2013年开放公共数据和启动21个大数据示范项目为起点,从政府层面正式拉开大数据时代的帷幕。国防领域也积极适应这一发展趋势,2013年开始着手大数据应用研究,并基于研究结果从2015年起推进国防大数据示范项目。随着大数据热潮席卷而来,在包括国防在内的所有公共领域,“大数据”和基于此的“第4次工业革命”正在成为最受关注的焦点。
不过,越是对特定尖端技术满怀期盼、赞誉有加的时候,就越应该再三反思,大数据同样不是例外。即便大数据确实是不可逆的宏观层面上的变化,我们也要正确认识这种趋势,并判断这种趋势是否沿着正确的方向发展。据美国凯捷咨询公司(Capgemini)2014年调查结果显示,有80%的企业正在推进大数据项目,不过仅有8%的企业认为项目是非常成功的。从韩国的情况来看,虽说新闻头条经常报道某个大数据项目取得明显成效,但是不可否认尽管投入了大量预算,还是有一些项目触礁或没有取得具有标志性意义的成果。
表1.韩国国防大数据示范项目
国防领域大数据应用需要考虑的事项 大数据应用的基础(高质量的大量数据+数据专业人才)是否夯实?
大数据应用的基本前提是大量数据的存储。不过,在推进大数据应用项目的过程中,我们需优先考虑是否拥有支撑大数据分析的“优质的大量数据”。问题是大数据应用的后来居上者——公共部门并不是基于积累的数据来考虑如何尝试大数据方法论,而是先大步追随“大数据应用”的宣言口号,然后再去寻找相关数据。显然,这是本末倒置,把主要的和次要的、本质的和非本质的关系弄颠倒了。在这种背景下,很多人错误地认为,大数据是体量大、结构单一的数据集合,不需对数据的性质、特性、数据的出处等进行深入研究,只要将尽可能多的数据整合到一起,就可以在较短时间内生成能够获取有意义结果的大数据。事实上,大数据的描述价值与数据规模并不呈正比例关系。数据分析中有“垃圾进,垃圾出(Garbage in, garbage out)”的说法,即无论数据的量有多大,只要输入的数据 (in-put)是错误的,就只能得出错误的结果(out-put)。与此相反,即便数据的规模相对较小,只要积累的是优质数据,就能比无用的大量数据发挥更大的作用。
总结民间的成功经验,可以为国防领域的大数据应用提供许多有益启示。因在人机巅峰对决中战胜围棋九段李世石而闻名的人工智能机器人阿尔法(AlphaGo),通过“涵盖数千名围棋选手的比赛及十几万个棋谱”的机器学习生成学习算法,并基于算法间的无数次反复对弈进行优化筛选,从而创造出胜率高的下法。帮助阿尔法的机器学习成功的是围棋服务器KGS(Kiseido Go Server)上的16万个棋谱和3000万个围棋子儿的位置信息。前面提到的Google翻译服务,正是因为在过去十年的翻译数据基础上构建起了神经网络机器翻译(GNMT, Google Neural MachineTranslation) 系统,才得以成功。从这些事例中也不难看出,深入研究大数据里包括何种数据,严格遵循大数据处理的一贯性原则,再加上对大数据项目的持续投资,才能够确保大数据的成功应用。
推动大数据项目,除要有优质的大量数据外,还需要高水平的数据科学家(Data Scientist)。很显然,即便拥有庞大规模的优质数据,若不加以解析,那么这些数据也会变成无用之物。优秀的数据科学家可以基于对数据规模、数据污染程度等特性的充分理解,适时采用适当的方法对数据进行加工与处理,从而生成具有洞察力和预见性的产品。问题是高度专业化的人才培养是一项长期工程,根本无法在短时间内速成。为了能够着眼长远,实现大数据产业的长足发展,需在建立人才机制、促进人才队伍建设的同时,构建起高效的人才管理体系。
大数据应用的目的是否明确?
如同前面所述,在韩国,很多大数据项目只是在突出大数据应用理念,至于大数据应用目的却经常被忽视或被放在后面。如果大数据分析与应用的目的不明确,那么该项目就很容易迷失方向而遭到失败。为此,我们在构想新的大数据项目时,一定要探究该项目的大数据应用目的是否明确。
大数据分析与应用的目的是项目各阶段进行重要决策与状况判断的基本依据。首先,需根据“明确的大数据应用目的”来判断数据库中什么数据是有用的优质数据。随着韩国国防领域计算机化、网络化的加快推进,各种信息系统整体涌现,越来越多的数据在相应的数据库中不断积累。当然,这些数据在各自信息系统中运行是不会有什么大的问题。但是,从大数据综合分析角度来看,有必要着眼于“能否生成有意义的结果、是否是可预测数据”的分析目的,重新进行评估判断。若这一目的不明确,那么随着大量异种数据的累加,分析的基础将会彻底动摇。
大数据应用目的会对“数据的种类和质量是否适当、应选择何种数据分析技术和数据分析模型”等产生重要影响。举例来讲,明确的大数据分析目的可以成为“以现有数据能否进行分析、是否有必要进一步收集数据”等的判断基准。
此外,从分析技术层面来讲,还能为“以当前技术能否进行分析、随着数据增加能否提高预测准确度”等的判断提供有效支持。对上述事项的决策结果,能够使大数据应用分析的综合情景具体化。可以讲,大数据应用情景可保证项目的整个过程是一定的、具有持续方向性的,这对于结果的有效生成会起到重要作用。从图1可以看出,大数据分析目的对大数据应用情景的决定过程产生重要影响。
图1.大数据应用情景分析方向
明确的大数据应用目的,还能够成为 “项目是否达成第一阶段目标、后续项目是否有必要”的判断标准。如果通过大数据分析生成的预测模型,达到符合项目目的的预测准确度等级,那么作为与政策决策相关的单个项目,可做出项目结束的决定。如果未达到目标水平,还有一些改进要求,并为此提出提高预测准确度方案,那么可考虑进一步收集数据等的后续项目。
大数据应用是否有副作用和危险?
大数据分析的终极目的是通过分析,揭示海量数据中的隐藏模式,并加以正确运用。不过,通过大数据分析得到的预测模型等生成物,即便遵循了伦理规则,也不能完全排除被误用、滥用或恶用的可能性。如果基于大数据分析制成的一定的模型是不透明、不公开的,严重威胁人们的生命安全,且存在众多领域使用的扩张性,那么这种高危险甚至也可以被称为大规模杀伤数学武器(WMD:Weapons of Math Destruction)。正因为如此,在大数据应用项目的计划及实施过程中,需高度警惕真实性风险,并要从源头起建立风险评估机制。
下面围绕韩国国防部组织实施的大数据应用前期研究工作中的“军营安全预测模型开发”项目展开分析。该项目的目的是基于国防研究院(KIDA)新兵人格调查(NMPI:New Military Personality Inventory)的调查数据、陆军团行政信息系统中的生活信息、陆军宪兵队调查资料中的事故信息、调查本部国防帮助热线的谈话内容等,提供各部队的各阶段军营安全指数,以此来防范重大恶性事故的发生。问题是对于这一预测模型的过度自信及对统计数据的滥用和误用,有可能会带来很多副作用。举例来讲,拿到军营安全指数危险报告的部队指挥官,有可能会将工作重点放在筛查危险人物上,从而忽略打仗这一部队的根本职能。此外,为了歪曲和控制军营安全指数,有可能对不适应军营生活的新兵重新进行人格调查,或向团行政信息系统输入与实际情况完全不同的生活信息。这种对数据的随意歪曲和篡改,势必会酝酿更大的事故或更大的灾难。
我们还可以假设一下针对个别官兵危险性的预警预测模型。通常,这种预测模型准确度能达到90%,就可以认为是相当优秀。包括大数据在内的所有预测模型,预测实现100%的准确率是根本不可能的。被预警预测模型识别为事故隐患的个人,往往会因模型的准确性难以消除危险烙印,这反过来又可能会引发部队内部新的矛盾或使矛盾加深。
基于大数据的预测模型生成物是一种可能性高的科学预测。即便如此,我们也不应全盘接受这一结果。特别是当预测的对象是“人”这种情况时,尤其需要谨慎。大数据分析及基于此的预测模型可能带来的副作用,应该通过“制订对大数据分析/应用全过程的管理制度及政策上的管控手段”予以防范。不但如此,需积极适应大数据发展趋势,持续改进大数据相关制度与政策。
相关阅读: