中国IDC圈2月22日报道:什么是大数据?就是指那些超过传统数据库系统处理能力的数据,数据量通常在10TB(1TB=1024GB,为1万亿字节)以上。大数据的基本特征是:体量巨大(volume),类型多样(variety),处理速度快(velocity)。有时所说的“大数据”,也指一种技术,它包括海量数据分析技术、大数据处理技术、分布式计算(云计算)技术、数据可视化技术。

20多年来,各个领域的信息化使数据量以指数率加速增长。有专家测算,2000年全球新产生的数据量为1000PB(1PB=1024TB)到2000PB,到2010年仅仅全球企业一年新存储的数据量就超过了7000PB。目前全球性的科技公司都要和PB级规模的数据打交道,而Facebook每天要存储大约100TB的用户数据,美国宇航局 (NASA)每天要处理约24TB的数据。目前大数据已渗透到每一个行业,逐渐成为重要的生产因素;而人们对于海量数据的运用,将迎来新一波生产率增长浪潮。大数据在政府决策、商业和科技等领域的广泛应用,将在公共服务、民生医疗、维护社会安定、动态安全监管等方面,将产生巨大的社会价值和产业空间。

航天是人类探索太空和利用太空的伟大事业。它在研制、运行和发布成果的全过程中,都会产生大数据和要求应用大数据。数据既是航天理论的基础,又是航天实践的基石。航天要对尺度远比地球要大无数倍的广阔空间中进行探索,其总量更多,要求更高。如果没有及时而精确的大数据支持,哪怕是一个小数点的错误,也会影响全局的成败。因此,航天大数据不仅具有一般大数据的特点,而且要求高可靠和高价值的要求。因此,航天是最早提出发展大数据技术的领域,也是取得大数据成果最多的领域。

为了说明大数据在航天方面的应用,我们将以美国宇航局(NASA)为例。在美国政府的“大数据研究与开发倡议”中,列出了其它的12个国家机构的大数据的行动计划。其中NASA的计划引人注目,它包括先进的信息系统技术(AIST)、地球科学数据和信息系统(ESDIS)、全球地球观测系统(GEOSS)、太空行动协议、行星数据系统(PDS)、太空望远镜科学研究所(MAST)、地球系统电网联邦公共档案等。

我们经常看到的天文奇观的预测报告,其实很多都来自于NASA背后的海量数据的收集、管理和分析。NASA 约翰逊航天中心(JSC)从1959年至今,已收集400多万静态图像,总达950万英尺的16毫米胶卷,85000卷录像磁带,以及总时长81616小时的视频模拟及数字档案。NASA开发了一项应用,将其命名为IO(在线影像),IO 能够将影像文件名与所有相关元数据连接。然而,JSC 依然面临一大难题:如何将资源向公众开放,以及如何对这些资源进行代码转换,使其空间占用更小,可利用率更高。为此,NASA和美国IT界合作,开发和应用一个高度可扩展的分布式批量处理系统Hadoop,对大型数据集进行扫描,来处理从太空中(如太空望远镜)中传回海量数据,其数据量可达到每秒钟 700TB!

NASA的大数据技术已经取得了大量成果。图示这幅2005年6月至2007年12月海洋表面洋流的示意图,集成了美国、日本和德国的具有各种数值模型的多种卫星的数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目提供了所有深度的洋流,但这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用,并监测地球系统的不同部分内部及之间的热量、水和化学交换。

NASA用于探索火星是否存在适宜生命存在的、以核燃料钚为动力的“好奇”号火星车,于2011年11月从肯尼迪航天中心升空,并于2012年8月6日降落火星。在一年多中,“好奇”号传回了大量数据和图象,根据“她”发回的资料,科学家制成了13亿像素的360度火星高清全景图,由此发现了火星远古存在河流以及当时环境适合原始微生物生存的证据。“好奇”号每小时要向地球发回5万张高分辨率的图像。NASA喷气推进实验室(JPL)的科学家,采用了云计算(Amazon Web service)来处理这些数据,在分析这些数据后,才能给“好奇”号安排第二天的任务。

总之,NASA的大数据的发展经历了两个阶段,初期称之为“大科学”阶段,这个阶段的特点,是产生数据的环境是可控的,目的是进行科学实验和研究;第二阶段称之为“大事业”阶段,产生数据的环境是自然的,目的是进行实际应用。目前,NASA的大数据正在从“大科学”向“大事业”的过渡之中。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>