5 月 27 日,生命大数据高峰论坛暨第四届基因组云计算技术开发者峰会(GCTA 4)在贵阳隆重举行。作为 2019 数博会的重要组成部分,会议聚焦“阅读、管理、理解、计算生命大数据”,分享前沿学术报告,解读最新政策及行业动态,为生命大数据的研究与应用再添新动力。

围绕如何搭建生命应用大平台,魏晓锋分享了国家基因库生命大数据平台(CNGBdb)的设计思路及服务优势,并展示了 CNGBdb 在助力生命大数据研究与应用方面取得的成果。以下是内容详情。

生命大数据,挖掘种质资源

生命就是大数据,其载体可能是动物、植物,也有可能是细胞,甚至磁盘或磁带。这里涉及一个关键词:种质(编者注:种质是指生物体亲代传递给子代的遗传物质,往往存在于特定品种之中。 如古老的地方品种、新培育的推广品种、重要的遗传材料以及野生近缘植物,都属于种质资源的范围)。

哪些种质的应用对经济有较大价值?中国的种质资源丰富到什么程度?对于丰富的种质资源,应该如何做好信息存储?

另外,每个人都是一个行走的大数据库。每个人从受精卵成长及至衰老,整个身体里动态维持着 40 多万亿细胞,每个细胞里都有 23 对染色体。IT 领域经常提到一个词叫量级,提升一个量级需要经常更新方法。而在 BT 领域的难题是,我们每个人有 3G 的基因组数据,通过测序分析会产生数百 GB 甚至 1TB 以上的数据。海量数据对平台和方法有更严苛的要求。

搭建数据组织的顶层设计

面对庞杂的数据,CNGBdb 团队把自身的数据和公开的信息进行了整合。那么,如何在上层构建一个新的载体以组织连接?魏晓锋认为,在这个平台上,需要做三件事情:数据、系统、网络。

具体到数据。CNGBdb 构建了一个数据仓库,整合了内外部的数据,建立标准流程,所有的数据都以节点的形式来承载。

此外还有数据挖掘。整个平台被分成数据层、平台层、应用层。未来,用户如需创建数据应用,只需一个按钮,就能像做选择题一样选择相关模块。

对应到网络,作为一个平台,并不是一个孤独的数据点。CNGBdb 整合了全球的公开生命数据资源,覆盖母婴健康、肿瘤、动植物多样性、病原微生物等十几个研究领域,形成一个超大型的科研数据系统。

CNGBdb,打造基因界的谷歌

CNGBdb 的主页界面

魏晓锋介绍,CNGBdb 目前已经建立覆盖健康与疾病、生物多样性、微生物等领域的十大专有数据库,专精专用;支撑数十篇科研成果发表,被《Cell》《Nature Genetics 》《Nucleic Acids Research》等国际期刊引用;并通过样本信息共享平台(E-BioBank)对外共享相关信息,而且配有对应的标本照片。

可以说,CNGBdb 以统一门户的形式,为用户一站式解决搜、存、算、用全部需求,且对用户免费开放,努力打造“基因界的谷歌”。

CNGBdb 一站式解决搜、存、算、用全部需求

此外,依托国家基因库对生物数据的“存”、“读”、“写”联动,CNGBdb 将样本元数据与生物样本甚至活体信息相关联,因此数据可以在“生物活体——生物样本——生物信息数据”全过程中进行追溯,实现综合数据的全贯穿。

魏晓锋称,从开始的“载体”到“连接”,再到最后以“平台”的形式展示,CNGBdb 作为一个对外的窗口,展示了数据的可能性。另外,就服务体验而言,CNGBdb 更希望做成一本字典,让所有人通过这个字典都可以方便快捷地了解到更多更丰富的信息。

未来,CNGBdb 将持续促进生命大数据的共享与利用,使生物信息数据在生命科学与生物产业发展中创造更大价值。

【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党