“大数据”技术,据称是对数据中心的所谓重塑。当然,数据中心不会像iPad的这样的主题那么有趣,但是,如果没有数据中心提供云服务等应用程序,ipad也必将失去很多乐趣。大数据也是一种新兴的和不断增长的行业的中坚力量,其可以说是为计算业务的终端注入了急需的肾上腺素。它是非常重要的。今年3月,美国奥巴马总统通过了联邦政府价值2亿美元的大数据项目的财政预算案。但到底什么是大数据呢?
数百万纳税人的税金支持、耗资数十亿美元的资本投资和运营支出、平面媒体网络媒体整天轰炸似的讨论。一切都在吸引着我们来好好探讨一下究竟大数据实际上是什么。但大量新的证据,其中包括RWW的布瑞恩?普罗菲特上周的甲骨文研究报告、同样还有沙伦费希尔上周发布的凯捷调查,以及有受SAP委托进行的哈里斯互动调查,所有这一切都为我们揭示了一个令人不安的趋势:无论是企业还是政府部门都在向他们所认为的任何与大数据相关的领域砸钱。而如何定义这些与大数据相关的领域,则可能取决于谁是他们的供应商,谁在向他们兜售这些营销概念,以及他们多久之后才开始意识到问题,并开始调查此事。
那些即使已经在大数据方面进行大规模投资的企业也表示,他们投资于大数据部分原因其实是因为大数据概念的营销,而真正对于大数据其实则可能是相对缺乏理解的。到今天为止,网络媒体对于何谓大数据的解释工作其实做点很不好。正如SAP业务分析执行副总裁史蒂夫?卢卡斯所说:“事实上,当我看到这些调查结果,我所想到的第一句话就是,哇。我们连一个关于何为大数据的准确的定义都还没有。这还真是一个大问题啊!”
5亿美元的金字塔
问题是,现在许多公司都面临着传统数据库的进化道路,尤其是现在成千上万的用户同时通过移动设备应用程序进行访问已成为一项任务。Hadoop框架兴起于雅虎的一个开源项目,目前已经成为其自身的商业行业,提出了可行的解决方案。但是,大数据对于那些已经有数据中心的客户来说相当难以理解,难怪调查发现,企业的大数据战略各个方向,五花八门。
“我从调查结果的有关统计中发现了一个相当令人惊讶的结果是,18%的年收入低于5亿美元的中小企业均认为大数据是由社交网络和机器产生的。”卢卡斯继续说道。“规模较小的公司正在从他们当前的网络处理大量的交易,而移动设备的采购,向他们提出了挑战。规模较大的公司有相应的基础设施和处理能力。因此,他们集中了诸如机器生成的数据、来自手机、移动设备、传感器,以及社交网络的数据。”
仓促的判断
去年四月,哈里斯针对美国的154名跨国公司的企业高层管理人员进行了一系列问题的调研,调研的问题之一便是要求这些受访的企业高管们根据自己所在企业的战略简单地定义一下“大数据”。其结果可谓五花八门。有28%的受访者认可“大量增长的交易数据”最接近自己的理解(认可这一概念的比例越来越大);24%的受访者认可“旨在解决数量、品种,和速度挑战问题的新技术即为大数据”(这一概念使得数据库系统变得更复杂);19%的受访者赞同“需要存储并进行监管的数据”的概念;18%的受访者选择了“爆炸的新数据来源”;11%的人选择了“其他”。
上述所有这些定义选项似乎达成一个共同的主题,数据库的发展超出了我们目前的技术能力。但是,当这些高管们再次被问到,给出一个策略来解决这一问题时,结果再次变得五花八门。
当SAP的卢卡斯进一步对调研结果进行探究。他发现,以年收入5亿美元为分界点。年营收低于该数值的公司(约占总受访者的60%),多认为大数据主要集中诸如Twitter这样网站。年营收高于该数值的企业有可能已经开始在处理社会网络的数据,而他们的问题是集中处理大量的来自新的移动设备应用程序的数据,以及他们正在使用的用于与他们的客户连接所产生的数据的问题,这些应用程序规模较小的企业还不太熟悉。
“以5亿美元年营收为临界点,不同的企业其基础设施投资优先次序方面的思路也很不同。”卢卡斯说。“他们还指出,云的一个关键部分是其大数据策略。我们将其作为第一大优先投资选项。”
那么什么是正确的答案?这里是一个对于“大数据”的解释,我相信,适用于任何人:
鉴于数据库技术无法扩大规模,已成为了业务逻辑的一种阻碍。这种逻辑使用效率不高的方法来访问和操纵数据。但这些低下的效率往往被硬件的增长速度和能力,以及存储的价格下降所掩盖。当然,这种低效直到2007年左右,都没有人真正注意或关心。
效率低下,最终纳入开放新的应用程序时,发现大量数据推断的重要成果(经常是分析的一种)的新的和实际用途。我们总是用传统的数据库系统的方法,不能扩大。大数据技术的建立是为了使应用程序可以扩大,但更重要的一点,其解决了过去30年来一直困扰我们的系统效率低下的问题。效率低下与尺寸或规模几乎没有关系,而是源于懒惰,我们更倾向于一拖再拖的不解决这些不愉快的细节,直到他们真正成为我们的麻烦。
从本质上讲,大数据工具解决的是大量数据的存储、访问、操纵和分析的方式。他们代替了传统数据库。至少,代替了存储系统(Hadoop),但他们也可以代替存取方法。