回望这两年大数据技术的发展,可谓风靡云蒸。而大数据的应用,也从最初的跟风上马逐渐向理性回归。当前,如何更好地把数据资源、业务需求与大数据分析能力进行结合,从而形成可复用的分析场景,已经成为业内普遍关心的话题。
Esri作为全球空间分析领域的领导者,一直在积极探索如何更好地挖掘空间大数据的潜在价值。早在2017年1月,Esri就发布了全新的ArcGIS GeoAnalytics Server 10.5。这是ArcGIS利用快速的分布式计算和存储,专门用来处理带有时间和空间属性的矢量或者表格数据的新产品,可实现多种终端的快速调用及可视化,并支持多种数据源。
历时两年,在2019年3月底,Esri又推出了ArcGIS GeoAnalytics Server 10.7。该产品不仅能够接入多种数据源进行快速分析计算,同时提供了20多种大数据分析工具,涵盖了数据处理、分析计算、洞察挖掘、机器学习等全方位的时空价值挖掘。另外,结合实际业务需求,可以自由组合多种工具,进行业务工作流定制,形成完备的空间大数据解决方案,帮助用户在海量数据中找到未知的、可能有用的、隐藏的规则,实现数据挖掘,获取信息价值。据了解,在即将于5月21-22日召开的“2019年Esri空间信息技术开发者大会”上,将会有该产品的详细解读。
ArcGIS GeoAnalytics Server 10.7主要在功能增强、性能提升、开发扩展和运维监控四个维度进行了整体革新,是一个全面、完整的空间大数据分析产品。
革新一:功能增强
ArcGIS GeoAnalytics Server 10.7中,新增了7个大数据分析工具,分别是裁剪数据、融合数据、合并数据、描述数据集、构建多值段网格、随机森林分类和回归、广义线性回归等,既涵盖了传统业务分析中常用的数据处理功能,也推出了基于分布式计算的分类和回归预测工具,通过在ArcGIS平台内部、或者使用API调用,即可完成模型训练和值的预测。
比如,在日常业务中经常遇到数据提取和分发的需求,如提取某个规划范围内的全部数据,辅助空间规划和其他业务,如果数据量级在百万级、千万级或者更大时,使用传统方式性能较低甚至无法完成。通过新推出的Clip数据裁剪工具,从1000万地块数据中裁剪出20万条,耗时仅为36秒。这比传统方式,性能提升了98%以上。
再比如,构建多值段网格工具Enrich from Multi-Variable Grid,可以实现指定要素的能力赋予。例如,需要对北京市房价进行预测,因影响房价的因子较多,几乎每个因子都和其空间位置、距离、权重等有关系,如何把学校、医院、商圈、交通服务设施等多维度数据,进行地理空间单元的表达,进而实现数据价值挖掘,就成了关键。通过构建多值段网格和多维数据赋能,可实现覆盖北京市范围的1千米单元格网的赋值,每个格网均有丰富多元的数据内涵,从而支撑下一步业务应用。
同时,ArcGIS GeoAnalytics Server 10.7中还提供了机器学习能力,并且每一个分析过程均在服务器端运算,可充分利用硬件资源,实现模型训练和分析值预测的能力。
革新二:性能提升
ArcGIS GeoAnalytics Server 10.7整体分析性能,较10.6有大幅度提升,在相同数据量、相同硬件环境下,执行相同的分析运算:Intersect,10.7比10.6有3-5倍性能提升。
革新三:开发扩展
ArcGIS GeoAnalytics Server 10.7,可以通过Rest API、Python API、Run PythonScrip进行定制型开发,如进行自定义工具,提交到GeoAnalytics Server分布式计算框架中进行运算。
革新四:运维监控
ArcGIS GeoAnalytics Server 10.7在进行大数据分析时,每一个任务执行状态、开始时间、结束时间、任务耗时均可监控,还可以查看细粒度的任务执行单元,真正做到了实时动态监控,分布式计算过程一目了然。
就其典型应用场景来说,ArcGIS空间大数分析主要可以应用于三大类:事务计算、辅助决策、洞察预测。当前业内涉及的大多内容属于第一二范畴,比如国土行业中的土地利用现状分析、叠加分析、冲突检测、变化监测等。随着数据量日益增长、需求日益细化,对历史数据的价值挖掘、对未来趋势的预测也逐渐成为我们关心的话题,如房价预测、餐馆收入预测、车祸发生预测等应用需求,可以通过地理人工智能GeoAI得以实现。
5月21-22日,“2019年Esri空间信息技术开发者大会”将在北京的中国科技会堂举行。届时,Esri的技术团队将全方位展示ArcGIS强大的空间大数据处理功能。
【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】