大数据分析是现在十分火热的话题,从农业到工业、从金融到体育、从传统企业到初创公司,各行各业都在积极应用大数据分析,似乎你的企业不和大数据沾点边就会显得没有逼格一样。

01_meitu_1

随着大数据分析的持续走红,大数据分析工具也呈现出了遍地开花的态势,我们今天要说的Hadoop就是其中之一。

Hadoop是Apache开发的一个开源项目,短短几年的时间,我们就见证了Hadoop从无到有、从简陋到稳定的转变。目前Hadoop因其具有高度可扩展性,灵活性和成本效益,已经成为大数据分析的理想工具。

Hadoop对大数据存储和预测分析有什么好处?

Apache Hadoop软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理,它的可扩展性非常好,可以从单台服务器扩展到数以千计的服务器。Hadoop在大数据存储和分析方面表现十分出色:

低故障率

每台机器都会进行数据复制,这一特点也使得Hadoop成为大文件备份的一个好选择。当一个节点复制了一个数据块,那么同一数据集群中的其他节点也会复制。数据备份跨越多个节点,所以数据被永久改变或破坏的可能性非常小,系统的容错性也随之提高了。

成本效益

Hadoop是具成本效益的大数据分析和存储解决方案之一。 根据Cloudera的研究,Hadoop存储数据的成本仅仅是其它大数据存储解决方案很小的一部分。

Cloudera公司产品副总裁Zedlewski Zedlewski认为,目前网络存储的市场行情大约是1TB数据5000美元,在具体情况下可能会有价格的上下浮动。在数据库、数据集市、数据仓库以及相关的硬件领域,通常1TB数据的价格可能要达到10000美元到15000美元。

灵活性

Hadoop是一个非常灵活的解决方案,用户可以使用SQL轻松添加提取结构化和非结构化数据集。这一特点对医疗行业来说特别有价值,因为医疗行业需要不断地更新患者记录。根据Dezyre报告显示:,美国医疗保健行业内大的软件及服务提供商Sage已经在利用Hadoop进行基因组学、癌症治疗以及患者生命监测等相关工作。

可扩展性

Hadoop支持高度可扩展,它可以存储TB级数据,并同时运行数千个数据节点。

利用SQL迎击Hadoop和大数据分析的挑战

Hadoop与SQL兼容,所以适用范围广泛,用户可以使用多种SQL方法来提取和使用Hadoop存储的大数据,如果已经熟练掌握了SQL,那么Hadoop就可能成为最佳的大数据分析解决方案。

但是如果想要从Hadoop中提取数据,那么就需要一个复杂的SQL引擎,目前市面上有很多开源解决方案,Apache Hive就是其中之一。

Apache Hive有三个主要功能:运行数据查询、汇总数据、大数据分析,它可以自动将SQL查询转换为Hadoop MapReduce作业,但是它有一个很大的缺点就是它随着数据集群的大小会有时间延迟的问题。

“Hive本身就不是为OLTP工作负载设计的,所以不提供实时查询或行级更新,它更适合于大量仅附加数据(如Web日志)的批处理作业。”Hive在大数据集项目上的时间延迟十分明显,因此它不适合需要实时分析数据的可扩展项目。

除了Hadoop Hive之外,还有一些其它的SQL引擎:

02_meitu_2

Rick van der Lans报告表示:上图这些解决方案基本上都能够弥补Apache Hive的不足,它们的特性之一就是多语言持久性,这一特性意味着它们既可以跨数据库访问数据,也可以访问存储在Hadoop上的数据。另外,目前也有很多用于实时大数据分析的应用程序。

InfoWorld报告显示目前Spark、Storm和DataTorrent是Hadoop实时大数据分析领域的三大领先解决方案,目前Hadoop中的流数据实时处理通常会选择Storm或Spark,而DataTorrent是开源自一个之前的商业产品,现在已经加入到了Hadoop战局中。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-12-07 11:35:00
大数据技术 ClickHouse vs StarRocks选型对比
一般来说,ClickHouse适合于维度变化较少的拼宽表的场景,StarRocks不仅在单表的测试中有着更出色的表现,在多表关联的场景具有更大的优势。 <详情>
2021-08-25 11:24:23
大数据资讯 Hadoop大数据“存算分离”,柏科数据 ISCloud分布式存储"提质增效"
业内新扩容方式“存算分离”架构的优势逐渐明显,“存算分离”成了大数据架构发展的必然趋势,成了解决行业用户在使用Hadoop时,面临计算资源浪费、存储性能低、管理成本过 <详情>
2021-05-07 11:11:30
云资讯 随着云计算等颠覆性技术的出现Hadoop将会过时
Hadoop是一个开源软件框架,它在近十年前开始流行。 <详情>
2020-02-28 18:00:43
云资讯 金山云容器引擎实践 为更多大数据用户赋能
随着云原生技术的加速普及,Kubernetes逐渐成为IT技术架构的基石,并推动着各行业技术架构的转型升级。 <详情>
2019-11-19 18:01:00
云资讯 合理建立Hadoop数据湖的7个步骤
数据湖的概念起源于大数据的出现——且数据已成为企业的核心资产,Hadoop则是作为存储和管理数据的平台而出现。但是,盲目地投入Hadoop数据湖建设并不一定会使您的企业进入 <详情>
暴力测试!华为电力模块 5.0 直面 AIDC 五大痛点,以极限可靠,让 AI 世界坚定运行
2026-05-07 09:18:17
深度|泰国EEC数据中心产业链的七个重要发现
2026-04-30 09:31:23
重磅 | 尚航科技助力“东数西算”苏南算力集聚区惠山节点正式揭牌!
2026-04-29 17:23:13
25MW!吉宝浮动数据中心在新加坡开建
2026-04-29 11:42:57
官宣:8月,2026中国智算产业绿色科技年会定档上海!
2026-04-29 10:40:23
白皮书重磅发布 | CIDC联合发布《AI智能体赋能行业决策:趋势与实践白皮书(2026)》
2026-04-29 09:37:51
总投资达150亿元,阿里巴巴广东云计算数据中心河源源城区项目扩建公示
2026-04-28 09:45:30
5月27日·泰国曼谷,DIFGC 2026·THAILAND 正式启动|数字基础设施全球合作发展曼谷论坛
2026-04-28 09:19:00
从自动化到自主化运维 ManageEngine卓豪的“进化”与“坚守”
2026-04-24 11:09:08
NTT计划在东京外围打造日本最大超大规模计算集群
2026-04-23 14:27:10
东南亚算力产业竞争白热化 出海胜负手在哪?
2026-04-23 14:25:04
首个大型AIDC园区绿电直连储能项目落地!双登股份携江天数据迈进“算电协同“新时代
2026-04-23 09:48:22
450MW!DayOne签下印尼最大数据中心电力采购协议
2026-04-22 14:36:18
投资4.08亿元、算力规模450P,安徽宿州AI算力平台项目完成验收
2026-04-22 11:34:31
AI引爆光纤涨价潮,最高涨幅达650%
2026-04-22 10:33:13