大数据是从什么时候就火起来的,准确时间已经不好查找,但是不妨碍概念火爆至今。虽然近一两年里,它的势头被人工智能、AI盖过去了,但是仍然是非常火爆的IT内容。
其实所谓大数据,并不是真正的信息技术范围内的东西,而应当是统计学范畴里的内容。印象里最早提出大数据运用的应当是在生物医学领域。比如基因测序,动辄就几十万几百万的数据量。记得在2008年中国肿瘤大会上发言讨论统计学中关乎逻辑回归模型数据过多导致过度拟合问题的时候,一个行业大佬告我们在基因学研究中全都是上百万的数据!当时非常震惊。
随着马云公布的淘宝销售数据中,人们发现当海量数据汇总在一起的时候,会展现出许多不容易为人所知的信息,并且通过对数据的分析能够有一定的预测能力后,大数据真正进入了大家的脑海里。一瞬间无数软件公司不约而同地将研发目标瞄准了大数据应用。无论是否研发出了有实质性的软件,但是在产品介绍的时候,宣传的非常的炫酷,似乎没有大数据解决不了的问题。
那么到底大数据是什么呢?或者什么样的数据才能称得上大数据呢?
BIG DATA从诞生的时候并没有严格的定义。大家第一印象对大数据的描述已经比较准确,那就是大,海量的数据!如果打印成纸张能够把人淹没。
有多少数据才算大数据?如果说100G就医记录算不算大数据呢?大数据其实跟数据容量没有关系。随着技术的发展,现今一个患者的全身CT扫描产生的数据量就可以达到1G。100G数据不过是100个人的影像数据而已,算不上大数据。
可是如果这100G的数据完全是一条条的记录汇聚而成,倒是算有些规模。不过也称不上大数据,准确的说法应当是数据湖。尽管数据有了一定规模的积累,但是在运用的时候还是不能够准确得出结论。因为数据来源过于单一没有广泛的代表性。比如一个医院就算是拥有了100G的诊疗记录,但是患者都是当地或者周边的人。如此狭小地域的数据是无法代表其他地方的疾病特征的(假以时日,北京的大型医院汇总了足够多的全国患者的数据的话,倒是有了充足的代表性)。再说很难有普通单位或组织能够拥有如此大规模的数据量,所以在普通的组织单位中是不存在所谓大数据的。
真正的大数据是存储在政府、跨国企业以及像百度、腾讯、阿里巴巴这样的巨型IT企业手里。他们的数据库中储存有来源于全国各地的,各式各样的数据。其数据量已经远远不是TB级别的了。通过对如此大规模的数据中,就可以很容易发现人们的购买趋势,消费水平波动,以及疾病流行情况等等。
总之大数据的的确确是存在的,但不是我们普通IT人能够接触到的。而我们身边存在大量小数据,如果借助信息化手段对小数据进行发掘,同样是有许多可做之处的。
任何单位、组织、公司的数据规模都算是小数据。通过对其进行分析既可以达到决策管理的目标的,完全用不上大数据登场。从最常见的医学研究来说,对于某种疾病的对照实验,通常患者数量在几十人到百十号人,如果能够有上千人的研究样本,就算放在国际学术研究中也是规模庞大的了。
随着数据的增长,收集数据的成本越高。比如查询必须的资料,收集必备的人员信息,进行人工随访等等。研发的信息系统能够将这部分工作实现的很好,那无论对研究也好,决策也好都能有着积极的作用。
不过由于软件工程师大多没有接受过数据方面的培训,只是专注于IT技术的学习,所以在软件研发的时候,并没有数据的概念。导致最主要的后果是,某些在当下或者外来需要使用的字段并没有被囊括进程序中,导致了数据的缺失。比如在医院准备进行某个科研项目的统计,发现没有一个系统记录了核心字段,从而使得研究不得不回归人工手段,花费大量时间进行增加与补充。
现在许多系统的作用也仅仅是实现了数据的记录,从而证明在什么时间什么地点发生了什么。至于这些数据往往无法被进一步加工分析。现有的应用系统还有大量需要改进的内容,等待着软件工程师实现。
在现在,大数据距离我们普通人还是太过遥远,不过小数据却就在去身边。与其热情的拥抱大数据技术,不如耐心将小数据收集、分析运用娴熟。因此软件公司们没有必要花费大量人力研发、资金投入到大数据产业去讨个彩头。大数据项目当下注定是个费力不讨好的工作。不如跟着一线使用者一起,打磨现有的业务系统,将所有小规模数据盘活运用起来更有意义些。
相关阅读:
Bespin Global连续三年入选Gartner公有云基础设施专业管理服务提供商魔力象限
世纪高通助推华为云TrafficGo落地 位置大数据使能交通智能体
凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。