中国IDC圈2月7日报道:事实上,如果企业能够搞清楚围绕着大数据的一些误解,可能能够帮助他们避免制定错误的业务发展方向,进而化险为夷,防止浪费大量的时间和金钱,耗费企业的市场竞争地位,或者损害企业的声誉。

如下,是一些关于围绕大数据理解的大的误区。

误解1:只有数据科学专家才能处理大数据

事实上,仅仅依靠数据科学专家本身是远远不够的。

“如果企业自身从一开始都不知道他们希望通过大数据分析中寻找到什么,那么,您企业所聘请的数据科学专家们对于能够从大数据分析中获取怎样的信息也是爱莫能助的。” 宾夕法尼亚大学医学院数据分析高级主管帕特。法雷尔说。“企业所需要的是那些熟悉本行业领域的相关知识,了解行业内存在什么样的问题,能够从大数据分析中获得怎样的特定行业价值洞察力的专业人士。”

例如,宾夕法尼亚大学医学院包括卫生系统和医学院。其卫生系统已经花费了很长一段时间在数据仓库中进行临床数据采集方面的工作。而与此同时,其医学院利用新技术进行人类基因组测序方面的研究过程中需要大量的数据。

“我们知道我们所收集的海量大数据中肯定蕴含着相当有价值的东西,并且我们最终能够通过一定的计算能力来访问到这些有价值的信息。”法雷尔说。结合医学专业知识进行数据分析为他们的医疗保健预测开辟了一个全新的领域,他说。

误解2:更大的数据量意味着更大的价值

收集、存储数据,并对其进行分类编目,需要花费相当的时间和资源,法雷尔说。而如果不加区别地仅仅是单纯的收集大量的数据信息通常会使得更有价值的项目转移。

法雷尔建议,企业在开始收集数据之前,必须对具体的指标或关键绩效指标有一个清晰的认识。

“企业需要明白,必须要通过智慧,对收集到的海量数据信息进行分析,进而从中挖掘出价值点。”他说。“仅仅是进行数据收集本身的工作是远远不够的。 ”

误解3:大数据仅仅只对大企业才有用

大公司可能有更多来自企业内部的数据源,但即使是小企业也可以充分利用来自社交媒体平台,政府机构,以及数据供应商的数据。

“不管您企业的规模大小是怎样的,当您在做出相关的业务发展战略决策时好是基于数据信息分析进行的,而非仅仅是单纯依靠直觉。” 戴尔软件信息管理解决方案产品管理执行董事Darin Bartik说。

较之规模更大的企业而言,规模较小的企业可能会比同行的大企业较少的利用数据来做出企业决策,但是,一旦小企业这样做了,他们可以更快的制定出更好的企业决策。

“小企业可以利用最佳实践解决方案成为更为数据信息驱动的企业,实际上超过或智胜那些规模更大,对数据驱动反应缓慢的竞争对手。”他说。

误解4:现在收集,之后在分类整理

现如今的存储的确是越来越便宜了,但其毕竟不是免费的。而且对于许多企业来说,他们存储数据胃口扩大的速度远远超过了存储成本下降的速度。总部位于旧金山的云计算商务智能供应商Birst公司的首席执行官Brad Peters说。

那些认为仅仅只是单纯的收集数据的企业,以后会为如何处理这些海量数据而发愁的,他说。“我曾经看到过一些大公司收集了海量的数据信息,其收集和存储费用不断上涨,但企业并没有从中得到任何有价值的分析洞察。 ”

事实上,对于一些数据集而言,其已经开始适用收益递减的规律了。例如,您需要根据某个选举的投票人的数量来预测选举结果,这样您就需要一定数量的投票人,以获得具有代表性的样本。但在您收集的投票人数量超过某一个点之后,增加更多的投票人并不会显著影响对于选举结果判断误差的程度。

Brad Peters问:“您企业仅仅靠收集更多的数据信息,就可能带给您更精准的预测分析度吗?”或者说收集更多的数据信息难道不是意味着您企业需要雇佣更多的人手吗?您能够确保您企业的网络会更好吗?我们收集数据信息的速度不能太快,不能超过了企业经济状况和预算增加的速度。“

而且,这不仅仅只是存储成本的问题,位于旧金山专门从事非结构化数据分析的Recommind公司的大数据管理兼信息管理全球负责人Dean Gonsowski说。例如,如果数据失控,可能会让企业的成本花费超出控制,他说。并且,企业数据仓库中存储更多的数据信息就意味着企业需要承担更多的遵守数据监管法律的责任。最后,企业收集的数据越多,就越需要对这些数据进行排序整理。“当数据库达到数十亿的搜索记录时,搜索时间势必会延长,这样,那些从来没有经过很好处理的信息量真的会造成系统堵塞。”

误解5:所有数据均与有同等的重要性

在过去的20年里,弗吉尼亚州一直在收集有关学生入学率、财政援助和学位授予等相关数据信息。但是,这并不意味着20年前收集的数据与存储在同一个数据字段的必须是相同的数据。

“目前,我所需要处理的大问题是,在数据字典中,研究人员认为所有数据信息的重要性都是平等的。” 弗吉尼亚州的州高等教育委员会政策研究和数据仓库主任托德马萨表示。“例如,我们关于学生的ACT和SAT考试成绩数据收集,最初只收集了本州内的学生的信息,然后我们觉得这存在数据缺口,就开始同时收集本州内外学生的数据。”类似的,我们还收集不同种族学生K-12水平测试的数据,并跟踪其高等教育情况。

事实上,对于不同的机构,或在不同的时间点,或对于这些机构内的不同的人而言,任何特定的数据可能具有不同的重要性。“如果一个孤立的存储或企业需要对其收集的数据全权负责,那么您可能有遇到许多不同的情况。”他说。“但,数据的重要性会随时间的推移而改变。”

“因此,分析师需要具备不仅仅只是统计技能,而且还需要具备将数据和行业趋势作为一个整体进行分析的能力,如重新校准SAT和ACT分数。”他说。

您不能将所有这些数据信息都放到一个数据仓库。这同样适用于外部数据源,他补充说。“在过去的50年中,联邦一级的数据集已经发生了巨大的变化,了解数据采集的文化背景是利用数据的必要性前提。”

误解6:预测越具体就越好

认为某些东西越具体就越准确是人的本性。例如:“下午3:12 ”就比“下午的某个时候”更准确。同样,预测“星期天早晨一定会下雨”就比“本周末有百分之五十的下雨机率”更准确的。

事实上,情况正好相反。在许多情况下,更精确的预测不太可能是准确的。

误解7:大数据就等于Hadoop

Hadoop是一款非常流行的非结构化数据的开源数据库,在最近已经得到了很多的关注。但企业其实也有其他的选择。

“有一个整体的NoSQL可供企业选择。”SAP大数据总经理兼高级副总裁Irfan Khan说。“同时,还有MongoDB、Cassandra等其他技术的整体机架。” 其中某些技术可能会比其他的技术更适合一个特定的大数据项目。

特别是,Hadoop的工作原理是将数据划分成块,并同时在多个数据块上工作。此方法适用于许多大数据的问题,但非所有的问题。

“虽然YARN框架和Hadoop 2能够解决其中某些问题,但有时候,您需要处理问题的方式,Hadoop并不是最理想的。” 一家大数据咨询公司LucidWorks的CTO Grant Ingersoll说。“人们需要保持冷静,决定怎样的技术对他们来说是好的,而不是单纯的靠什么技术是当下最时髦的技术来进行判断。”

误解8 :最终用户不需要直接访问大数据

随着企业从各种各样的来源高速收集大量的大数据信息,似乎对于企业的正式员工而言,处理这些大数据信息都变得相当复杂了。但事实并非如此。

举个例子来说,在重症监护病房中,全部设备所产生的数据,包括心脏速率,呼吸数据,心电图读数。很多时候,医生和护士就只能看到病人当前的读数。

“我无法看到10分钟前的读数是怎样的,或者绘制出一幅趋向图,了解从现在开始到一个小时后将是怎样的走势。”飞利浦医疗保健患者护理和临床信息的首席营销官安东尼。琼斯表示。但能够了解病人的历史数据信息,对于医生做出相关的医疗方案决定是非常有价值的。

现在的问题是,我们需要让所有不同的设备所产生的数据进行相互的交互,即使他们最初不是这样设计的。并且甚至使用的是不同的操作平台,操作系统和编程语言。但是,一旦您这样做了,就能够帮助医生和护士在需要时获得更有价值的数据。

误解9:大数据是个大问题

一些主要的大银行的首席信息官最近纷纷开始讨论关于大数据的话题,并询问关于最终用户的自助服务。

一些高管认为大数据只能够解答某些特定类型的问题。他们的态度可以概括为: “我们的大数据目标是通过一组核心数据科学家解决极少数且高价值的问题。我们不希望数据变得混乱,让一般的人也能够访问和使用这些新的信息,我不认为一般的人需要这些数据。”

Birst公司的首席执行官Brad Peters不同意这种做法,但他表示,这在许多行业的都是较为常见的。“在许多大型保险公司,‘许多内部业务用户没有足够的智慧来处理大数据’的想法十分猖獗。”

误解10:大数据泡沫终将破灭

炒作可能会随着周期来来去去,但技术的变革必将持续。网络泡沫的结束并不是互联网破灭的信号。

即使在炒作平静下来之后,企业仍将需要大数据处理。事实上,随着数据呈指数级增长,他们将比以往任何时候都需要进行更多的大数据处理工作。据IDC预计,到2020年,每两年累计收集的数据量将增加一倍。

而且,不仅仅只是企业会比他们当前所收集到更多的数据信息。同时,新的数据类型也可能出现,同时,需要大量的存储。

“我们将对病人的基因组进行映射。”飞利浦医疗保健的患者护理和临床信息的首席营销官安东尼。琼斯表示。“这可以让医生根据患者的具体情况进行定制的医疗方案。当我们谈论大数据时,我们所指的并非只是海量数据的收集。我并不认为大多数CIO们会真正觉得数据收集工作会是什么很难的事情。”

只是稍微犹豫一下是否采用“大数据”项目,企业就有可能错失捕捉到会影响他们业务的数据元素的机会,Cadient集团首席技术官Bryan Hill说。

“就像云计算一样,‘大数据’的术语可能会改变,这与互联网并没有什么不同。但大数据研究的精神将永驻。” Bryan Hill说。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>