科学数据是国家科技创新和发展的重要基础性资源。实现可发现、可获取、可互操作和可重用原则的科学数据开放共享对加强数据资源利用至关重要。
近日,国家青藏高原科学数据中心主任、中国科学院青藏高原研究所研究员李新,中国科学院院士、中国科学院西北生态环境资源研究院研究员程国栋,以及来自上海师范大学等机构的研究人员在《自然—地球科学》发表评论文章。文章认为,对公开数据共享的政策支持,以及对数据贡献者的激励机制,是实现我国地学数据广泛共享的关键。
树立数据共享信心
李新表示,地球科学数据共享对于解决全球环境问题尤为重要。然而,政策、文化、技术等方面的壁垒往往成为科学数据开放共享的阻碍。
数据中心是促进科学数据开放共享的重要载体。早在上世纪90年代,美国就启动了12个分布式数据存档中心,主要用于存储气候研究产生的各类数据。目前,世界数据系统共有86个数据中心,其中57%属于地球科学领域。
近年来,随着我国在应对气候变化和实现联合国可持续发展目标等领域发挥越来越重要的作用,在数据共享和透明度方面也采取了更加积极的政策。2019年,国家青藏高原科学数据中心、国家人口健康科学数据中心、国家天文科学数据中心等第一批20个国家数据中心上线,其中10个属于地球和环境科学领域。
这些举措能在多大程度上促进我国的科学数据共享?
最近,一项超过2000名研究学者参与的调查揭示了我国科学数据开放共享潜在的机遇和挑战。该调查显示,我国研究学者虽有分享研究数据的意愿,但也担心数据被误用及版权和许可受到侵犯。
而且,在我国,在较小范围内,如与同事和合作者共享数据,更为普遍。
“可见,要增加科学数据中心的影响力,更广泛地树立我国研究人员对数据共享的信心,仍需做大量工作。”李新说。
将共享纳入考核
为推动科学数据广泛共享,数年前,国家自然科学基金委员会在地学领域的两个重大研究计划“中国西部环境与生态科学研究”和“黑河流域生态—水文过程集成研究”立项时加入了新要求,即受资助项目得到的科学数据都必须在国家自然科学基金委员会地球科学数据中心公开共享。
于是,在上述项目的年度评估、中期考核及最终评估环节,数据是否提交共享及其质量都是被评定的内容。更重要的是,新要求的关键在于通过数字对象唯一标识符(DOI)和相关发表论文的引用明确了数据贡献者的工作,以此给予他们激励。迄今为止,已有2500多篇科学论文引用了这些数据集。
“这两个重大研究计划强调了数据共享的强制性,以及对数据贡献者的肯定和对知识产权的尊重。”李新说。
近期,中国科学院发起了地球大数据科学工程专项,该项目旨在构建一个包括资源、环境、生态、生物等在内的地球科学数据的信息基础设施。目前,通过收集来自专项的各类数据,该平台已存储超过5PB的数据,下载量超过50万次。
实现范式转变须加强激励
通过分析科学数据共享的生态系统,总结重大研究计划和专项在推动科学数据共享方面的成功经验,作者们呼吁,我国要在政策、管理、技术和国际化等方面采取更具体的行动,大力提升科学家共享数据意愿,提高我国科学数据中心影响力,推动更广泛的地学数据共享。
具体来讲,在政策方面,进一步明确敏感数据及其使用界线。在管理方面,可将科学数据质量等指标纳入评价机制,数据中心也可通过数据引用、数据重用指标来量化每个数据集的影响,以激励数据贡献者。在技术方面,数据中心可以通过提供数据集成与包括机器学习等技术在内的平台、数据搜索引擎、智能数据处理工具等措施,有效地为用户和机器提供更友好、智能的服务。在国际化方面,鼓励贡献者以中英文双语发布元数据和数据,并积极参与国际认证,以增强我国数据中心的国际影响力。专家们表示,这些行动落地的关键在于数据中心。数据中心作为数据管理、新技术应用和国际化等方面的实施主体,可发挥关键作用。
李新表示,加强和规范科学数据管理,对进一步发挥国家财政投入产出效益、提高科技创新能力和促进经济社会发展具有重要意义。“虽然我国在科学数据共享方面取得了一些进展,但要实现范式转变,仍需要政府、研究人员和数据中心的积极努力。科学数据及其贡献者受到的激励越大,就越有利于推动地学数据共享,从而促进科学和社会的发展。”