中国IDC圈1月19日报道:结构化数据与非结构化数据之争已经见到了眉目,而我国的大数据产业也正处在由结构化为主到非结构化为主的过程中。那么非结构化数据为何可以取代结构化数据制霸大数据市场呢?

一朝天子一朝臣,一个时代一尊神

过去的几年里,结构化数据一直是企业用户的首选,由于其以固定字段驻留在一个记录或文件内,通常是被人为组织整理过,具有处理分析简单、存储便利等优势,而大范围的被企业用户所利用分析。

非结构化数据是相对结构化数据而言概念,指没有被预先定义数据模型或不是以已定义的方式进行组织的数据。非结构化数据不必以某种方式组织,而是直接按照学科方式进行分类,主要包括有文本、图像、音频和视频等不方便用数据库二维逻辑表来表现的数据。

乍看之下,非结构化数据并没有夺权的理由,但是,大数据时代的到来让结构化数据的优势不再。企业用户云端化导致创造数据的主体由企业转向个体,而数据结构也就由原来的企业所整理的结构化数据为主变为由个体产生的非结构化数据为主;另外信息化的普及,使得数字办公越来越常态化,办公所产生的文本、报表等非结构化数据也逐步增加,所占新产生数据比例甚至超过90%。

此外,非结构化数据的处理难题逐渐被攻克,自身的灵活优势进一步被体现。相比已经被处理过的结构化数据,非结构化数据更为自由灵活,来源广阔,贴近客户,商业价值更大。其分析结果主要是数据驱动(data-Driven)的语义分析加舆情分析,更具科学性,内涵更丰富,更具有前瞻性,同时可以对用户的情绪做出分析评价,对企业指导作用更具真实性。这些性质对于结构化数据来讲都是渴望而不可及的。

推动技术改进,提升商业价值

非结构化数据比较结构化数据而言,虽然其分析难度较大,但巨大的商业价值却诱使企业不得不进行大量的技术改革,而这些改革都开始在各个领域发挥出自身的优势。

在IT行业一直有句至理名言,“Garbage In, Garbage Out”。由于数量极大,而且格式繁杂,存储分析困难等原因的存在,很多的厂商都对非结构化数据望而却步。但是不仅对信息繁杂混乱的非结构化数据如此,甚至结构化属于也存在这个问题。我国如今很多企业的数据分析都还停留于简单分析的层次,对于深度的数据挖掘并没有表现出太大兴趣。但是由于近年来非结构化数据的崛起,结构化数据的优势不复存在,企业技术改革被推到了不改即亡的地步,一系列更适应时代的技术便应运而生。

非结构化数据价值更高,分析技术的变革首先开始进行。例如The Taste Signals Platform等强大的数据分析平台进入市场,其分析非结构化数据所得到的分析结果信息量巨大,对企业用户的各个层面改进均具有良好的指导效果;与此同时,工具性能的提升带来的是数据分析师的生产力提升,人和工具的结合可以实现价值的大化。这样的良性循环下,结构化数据分析所带来的价值优势荡然无存。

其次变革的领域便在于存储。由于数据存储空间成本大幅降低,“必须压缩非结构化数据为结构化数据”的落后的存储方式不再是非结构化数据的发展障碍。但是非结构化数据对仓储工具依然有着较高的要求,因此诸多类型的仓储工具如NoSQL等应运而生。这些仓储工具利用其强大的功能解决了困扰企业许久的大规模数据集合多重数据种类带来的挑战。此外,非结构化数据的这一特质也对数据库的云端化有着极大的推进作用。

再者,非结构化数据对KPI的科学化有着良好的帮助。以往KPI绩效考核更多的依赖于企业决策者的经验,这样的做法很可能导致企业停步不前。但借由非结构化数据驱动KPI的实时生成,通过机器学习的数据平台工具得出的数据挖掘结果,对公司产品改进做出的指导会更符合基层用户的使用习惯。

由此三方面可以看出,非结构化数据的表现会更为强势,不仅促进了大数据行业技术的更新,其对于企业的商业价值也远超结构化数据。

灵活而多变,超越而主宰

如果仅有以上两点并不能让非结构化数据夺权的话,那么灵活多变的特点则是其登基最重量级的权杖。

在以往分析非结构化数据时,通常会先将全部数据统一格式进行结构化,然后才进行分析。这样做大的问题在于统一数据结构降低了数据的灵活性,并且拖慢了数据分析流程。而同样的问题也出现在了结构化数据身上,尽管结构化数据看似分析速度较快,不需要进行其他的结构变更,但是结构化数据大的问题便在于其结构太难改变,固定的数据结构一旦需要进行其他层面的分析,则会消耗大量的时间精力,甚至影响重新收集。这种不够灵活的模式已经不再适应当今的形式。

而相比之下,非结构化数据由于数据源直接收集,经过的处理较少,因此在进行不同类型的数据分析时,非结构化数据可以得到的信息也就最贴近原始数据。在保持其原有格式的情况下,数据灵活多变的优势更为突出,可重复利用率提升。如果需要其他层面的建模分析时,也可以直接进行分析,不仅提升了企业效率,也保持了数据源。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 11:39:36
云资讯 构造云原生数据战略三大核心因素 亚马逊云科技2022 re:Invent全球大会发布多项新功能
亚马逊云科技指出了构建云原生数据战略的三大关键构成:建立面向未来的云原生数据基础设施;实现高效、跨组织的数据一体化融合;借助教育和工具,使数据普惠化。 <详情>