看得见的大数据
中国IDC圈5月20日报道,大数据到底是什么?大数据能做什么?已经讨论得太多太多,但是还是有很多值得聊一聊的,比如,大数据信息可视化,这是 大数据应用于实际中必须要解决的问题。
早在18世纪,英国统计学家普莱费尔·兰伯特就提出了统计信息可视化的理念,经过长期的发展,信息可视化技术到今天已经成为大数据展示的重要手段,信息可视化作为视觉信息转换技术,以提高数据表现效果为目的,可以更直观对大数据进行浏览与观察,明确数据相关性和隐藏特征。
因此,在整个大数据开发利用的闭环中,让大数据能够被感知并看到,是必不可少的一环,可视化的最终目标就是让每一个人都能看到大数据到底是什么。
信息可视化技术是一个相对比较广泛的领域,它能运用到医学、气象、地质、航天等多项技术部门中,也可以运用到商业、政府机构中为其数据的整合提供一个可靠的信息环境”因此信息可视化是一项伟大的国家科学技术和国家经济发展的技术具有重要意义。
现在移动互联网技术高速发展,网络传输等方面可以利用图像或是数据处理技术可以清晰直观的对数据有所掌握,并进实时交互,实现资源共享。
那么大数据信息可视化技术到底是什么呢?信息可视化在本质上是一个可视化的界面,是人机交互技术的综合研究。通过信息可视化技术可以实现多学科的有效整合,对抽象信息更直观的处理,用户可以利用人机计算机交互技术对抽象信息的准确识别”信息可视化技术是数据挖掘、图像处理、人机交互和可视化技术的有机结合,是为了让人们使用直观的感知和视觉观察的方法研究信息。
基于图形设计与认知心理学的信息可视化技术,平面设计注重视觉表现问题的艺术性,对实际操作经验的具体指导。认知心理学是以人的知觉过程为主要研究课题,着力解决人类认知和认知过程的问题。信息可视化是一种数据可视化映射过程,可以通过整合、映射等形式传递信息特征,通过图片、图像、动画等形式来表达信息、图像、文字和声音的内容,可以称之为信息可视化的信息源,可以通过各种方式将其呈现在人们的面前。
嗯?数据怎么不准确?
近两年, 大数据在应用方面频频出新,特别是基于移动通讯信号端抓取的人流热力分析,那是火爆的不得。。目前正在贵阳观山湖灯会上所运用的大数据人力地图,即是大数据可视化的具体体现。春运大数据分析报告,观山湖灯会时时人流信息抓取,贵州春节旅游大数据分析报告,连续三分基于此技术诞生的典型大数据具体应用获得了广泛推广和好评, 但是,在推广的过程中,有些问题并不能回避,那就是显示出的可视化数据有一定的误差值,这到底是咋回事呢?小编今天试着解释下哈。
必须肯定的是基于移动通讯基站所抓取的手机数据本身肯定是精准的,不会出现任何的偏差。但是由于数据抓取都是基于各家服务商自身基站的信息,那么为了表现整体的数据信息,就必须通过统计学概率的原则对原始数据按服务商市场占比进行一定程度的扩容,同时在扩容中还要加上没有手机人群比例,一般来说扩容的比例在1.25至5之间。由于手机信号抓取的样本足够大,按科学方法扩容后,显示出来的数据应该是相当准确的,可是实际运用过程中还有问题。
按手机信号抓取数据的规则,一部手机到了设定好抓取范围内就被计数一次,这个范围可以小到一栋大楼,也可以大到整个世界。当手机离开这个被抓取范围后,在次进入该范围就会被再次计数。了解了这个原理后,我们就可以清晰发现,实际上目前通过移动信号抓取技术,所获得的以基于贵州省全境内的流动数据会出现人流数大于真实数值的情况,原因有二,一是将过境旅客误认为目的地为贵州的旅客,二是重复记录居住在省界之间居民数据信号。
在大范围存在计数过大的问题,而在小范围内还有另外一种情况,就是数据可视化过程中数据延迟的问题。因为计算机按照事先设定好的程序,将信息转化为可视化数据的过程会出现数据迟滞的情况,导致显示界面的数据与真实数值出现偏差。简单说,就是在较长时间范围内,计数是准确无误的,而在较短的范围内,计数可能出现迟滞,显示出的结果就会看起来不准确。
现在我们来讨论解决问题的方法。首先是关于大范围计数重复和无法摈除过境旅客的情况,计数重复可以通过算法优化加以解决,而过境旅客被视为游客的情况,需要嫁接多维数据加以优化,比如嫁接交通数据、旅游景区数据等进行综合分析。其次关于迟滞的问题,解决起来一个字“钱”,通过花钱扩容服务器承载和计算能力,加快计算机处理可视化数据的进程,就能轻松搞定了。