组织可以在私有云、公有云或者混合云商部署大数据项目。然而,你的云环境选择会对成本、技术需求以及其他因素产生巨大影响。
为了提供一个业务所有且操作的专属云,私有云虚拟化本地存储和计算资源。组织需要直接的云环境控制,通常出于安全或者法规限制,典型地会选择私有云,由于私有云在本地的数据中心 内,这些环境需要额外的存储和计算资源,以及类似Hadoop这样的软件支持大数据。企业必须承担所有的基础架构陈本,并且处理任何可能出现的技术问题或者架构问题。最终,业务无法在私有云上部署大数据。
第三方提供商穿件且操作的公有云,共享了物理资源,比如网络、存储和计算。用户在云提供商的云中上传和操作工作负载,由于公有云提供商支持很多用户,计算基础架构要比私有云更加宽泛且可扩展。用户可以用分布式计算软件扩展治理大量的计算能力,只需要为所使用的资源付费即可。为了降低操作成本,一旦计算工作完成,不使用的资源就会被释放。公有云代表额一种“实用”计算模式,对于按需的大数据任务很适合。
混合云融合了私有云和公有云,可以让工作负载在二者之间迁移。当额外的计算需要时,混合云使用公有云资源,也就是我们所说的云爆发。私有云支持基础的工作负载,同时公有云资源按需临时调整。这个特性也支持大数据分析。然而,组织很少使用混合云进行大数据项目,因为公有云更加简单,且从长期的价格来看也更加有利。
随着组织需要更多的数据驱动来做出决策,大数据就会变得更加重要。但是这仅仅是开始。类似物联网这样的技术为业务提供了如同海啸般的新数据,科学家和政府正在分析。虽然大数据并不取决于云,但是云促进了大数据存储和分析,提供了可扩展性、按需的计算资源,且价格合理。