姜璐璐·中国科学院计算机网络信息中心
\"科学数据银行\"产品运营负责人
【资料图】
格致论道第91期 |2023年3月4日北京
大家好,我是来自中国科学院计算机网络信息中心的姜璐璐。我从事的工作是科学数据管理和科学数据共享,简单来讲,我和我的团队的工作就是为科学家建立一所“银行”。
ChatGPT号称是“史上最强的人工智能”,它可以帮大学生写作业,可以帮我们写代码,甚至可以帮科学家写论文,确实很厉害。
而我作为一个科学数据管理的相关人员,关注的是它为什么可以“上知天文,下知地理”。事实上,ChatGPT背后有海量的科学数据在源源不断地喂养着它,帮助它成长。正是这些海量的科学数据使得ChatGPT变得如此智能。
▲距离地球5500万光年的M87*黑洞
再来看一个科学家给黑洞拍照片的例子。这张照片是2019年人类拍到的首张黑洞照片,它帮助物理学家验证了广义相对论。
那给黑洞拍这样的一张照片,跟我们平时拿手机拍张照片是不一样的。拍这样的一张照片,动用了全球8个天文台,历经了5个夜晚的观测,产生了4个PB的观测数据。科学家又花费了2年的时间,才用这4个PB的数据计算得出这张照片。所以说,黑洞的第一张照片是根据海量的科学数据计算得来的。
如果大家还没有特别直观地感受到开放科学数据有多么重要,那我们再看一个开放数据推动生命科学研究取得突破性进展的例子。
蛋白质是生命的基础,科学家花费很多的时间研究蛋白质,试图寻找一些生命的机理。人类已知的蛋白质总共有1.8亿种,但科学家花了半个世纪的时间也只看清了其中19万个蛋白质的结构。19万听起来好像体量已经挺大了,但放在1.8亿的体量里面,其实只占到了1/1000。
图中紫色的点就是我们花半个世纪时间观测到的蛋白质结构的体量。在2021年,英国的DeepMind公司推出了一个人工智能叫AlphaFold DB,它当年预测出了100万个蛋白质结构。从紫色的点跟浅蓝色的点的对比中,我们可以感受到这是一个非常大的突破。在2022年,AlphaFold DB将体量增加到了2000万,就是图中深蓝色的区域。▲Springer Nature. 开放获取完全手册(2023)
从最近两年的一些调查研究来看,中国科学家在开放数据、数据共享上是有比较普遍的实践,大概有93%的中国的科研工作者曾经分享过他们的数据。
▲数据来源:Elsevier
从国际尺度上来看,中国的开放共享科学数据的体量是在逐年递增的,而且在2020年超越了美国成为了世界第一。大家可以看图中黄色的柱子,它就代表着中国。
那我们的科学家都是通过什么方式来共享他们的数据呢?通常做法是把数据放在一个专业的数据存储库平台上,依托专业的存储库平台让数据被更多的人看到、下载以及使用。
早些年间,数据存储库平台主要集中在欧美发达国家,我国并没有与国际连通的、可以交流的存储平台。所以我国的科学家通常要把自己的宝贵的科学数据放在国外的平台上。
国外平台的服务是收费的,而且是按存储大小收费的。我们找了一个国外非常知名的存储平台按它的报价表计算了一下,如果我们的科学家要在海外的平台上存储1TB的数据,需要交付4800美金,折合人民币大概是3万元,还是挺贵的。
除了资金成本之外,还有时间成本上的问题。很多海外的平台在中国是没有存储节点的,意味着数据上传和下载是要跨越洲际传输的,速度会受到很大的限制,kb/s这样的传输速度时有发生。
所以说,我国的科学家急切需要我们国家自己的一个数据共享平台来节约资金成本和时间成本,满足他们把数据共享给全球的科学家,实现数据流通以及学术交流的诉求。这项工作是非常必要且非常重要的。
我所在的单位中国科学院计算机网络信息中心从1986年就开始做科学数据的管理和相关的研究工作了。同时也牵头承担着中国科学院最早的科学数据库项目,到现在中国科学院科学数据总中心的建设任务。所以我们有近40年的科学数据管理和实践经验了。
在积累过程中,我们真切地了解到我们国家以及一线的科研工作者在科学数据共享上的迫切需求。这也让我们萌生了想为科学家做点什么解决他们这些急迫需求的想法。
除了科学数据领域,我们单位同时还是中国互联网的诞生地。我们运营着中国科技网,同时也运营着科学家自己的“云”——中国科技云。正是因为有这样的网络能力、存储能力和科学数据的管理能力,我们觉得可以为科学家建设一个这样的存储库。
我们设计的时候在想,给科学家建设的存储库应该是像银行一样:数据放上来,它是安全的、可靠的;它还具有良好的流通性,可以在国际的科学交流和传播过程中发挥更大的价值。所以我们给我们平台起了一个名字——“科学数据银行”。
我们在2015年建成了这样的一座银行,并且上线开展服务。图中就是科学数据银行的样子。
它跟货币的银行不一样,它是一排一排的机柜,一台一台的存储设备和一台一台的网络设备。这个银行里面没有办事大厅,没有营业员,主要是通过网站开放给全球的科学家,由他们来我们的站点,自助地把数据上传,也取走他们想要的有用的数据。
我们同时也做了安全性的建设,达到了国家三级等保的标准,实现了我们的网络、服务以及存储7×24小时的监控,拥有高级别的数据安保和备份能力。
事实上,在完成这些工作之后,离科学家真正在我们的银行上存数据、用数据,还是有一段距离的。
我们可以再看一个具体的、真实的例子。这是我们早期收到的科学家给我们的数据,就是一个excel表,什么描述信息都没有。这个数据只有科学家自己知道什么意思,可能过了几年之后,科学家自己也不记得了。所以这样的数据是不符合规范的。
数据共享是有国际原则的。国际上认为良好的科学数据共享应该是可以被便捷地发现,无障碍地被其他人、被同行科学家获取。而且可以被人理解还不够,还要可以被机器理解,可以被重新利用起来。
所以我们团队制定了一套标准化的严格流程,来确保数据从存入、到处理加工、到最后发布都符合可用、可被理解的标准。现在我们平台发布出来的600多万的数据都是兼容国际和国内的标准,具有非常好的流通性。
那数据仅仅是被检索到还是不够的,最终还是要被科学家下载到他们的计算机和计算环境里面。前面有提到,我们往海外的服务器上传数据的时间成本是非常大的,国外的科学家来我们平台上使用数据或者上传数据也是面临同样的问题。
所以我们在国内建立了2000多个节点,优先保证我国科学家的获取数据速率。我们还在海外建立了500多个节点,让欧洲、美洲和其他国家的科学家都可以快速地获取我们的数据。
▲节点运行状态监控
我们对所有的节点进行了一些监控,上面是一个监控图。在伦敦的科学家有时候可能下载速度比在北京的科学家还要快。这是我们在加速访问上的一些工作。我们也非常自豪,现在我们的数据已经被全球180多个国家和地区的科研人员使用了。他们来到我们银行,把数据拿走,用于他们的科研活动和科研创新,这意味着我们的数据被大家用起来了。
我们非常希望科学家可以自愿地把自己宝贵的数据存储在我们的平台上。我们需要解决的是科学家对我们平台信任问题,这其实是非常难跨越的一步。
我们的解决思路是找国际上最顶尖的学术出版商,让他们来对我们进行考核,让他们来说我们的平台是不是可信的平台,是不是可以帮助科学家进行科学数据开放共享。
所以我们在2020年开始着手一项申请的工作,联系了国际顶尖的Springer Nature出版商对我们平台进行非常严苛的评估,对我们的安全性、标准化、国际化、流通性以及整个团队的软实力等方面进行考核。最终在2020年,我们成为了Springer Nature向全球作者推荐的通用型科学数据存储库。
我们当时入选的时候,它名单里面有6家国际的科学数据存储库平台,我们是第7家。在2021年这个名单进行了缩减,又砍掉了1家。所以现在推荐名单里面是有6家存储库。
图中前两排的3个平台是美国的存储库平台,第三排的2个是欧洲的存储库平台,最后一个Science Data Bank科学数据银行就是我们平台。
获得了Springer Nature的推荐收录之后,慢慢地,越来越多科学家开始信任我们平台,把数据放在我们的平台上了。我们也陆续获得了CellPress(《细胞》杂志社)、Elsevier(爱思唯尔)、Taylor & Francis(泰勒-弗朗西斯出版集团)等顶级出版商推荐认可。
大家有没有注意到,近年来FAST团队有一些非常重量级的成果产出发表在像《自然》《科学》这样的顶级期刊上,这些研究背后的科学数据都存在我们的科学数据银行里面。
渐渐地,也有越来越多海外的科学家团队把数据放在了我们的平台上。比如希腊的一个团队,他们研究睡眠呼吸暂停综合症产生的大概1TB的数据,就存在我们银行。
到目前为止,我们平台已经存储了全球来自70多个国家和地区的科研人员的珍贵的科学数据,这也是广大科学家对我们的一份信任,我们也觉得非常荣耀。
我从2015年到现在,一直参与科学数据银行的建设工作,看到越来越多的科学家对我们认可与信任,我们团队也是非常地骄傲和自豪。
我们也会继续努力为更多的科学家做好服务,让我们的科学数据发挥更大的价值,把小“钱”变大“钱”,把死“钱”变活“钱”。
欢迎越来越多的科学家来我们的银行共享他们的数据。
文章和演讲仅代表作者观点,不代表格致论道讲坛立场。
版权说明: 未经授权严禁任何形式的媒体转载和摘编, 并且严禁转载至微信以外的平台! 更多阅读原称“SELF格致论道”,是中国科学院全力推出的科学文化讲坛,由中国科学院计算机网络信息中心和中国科学院科学传播局联合主办,中国科普博览(中科院科普云平台)提供技术支持。致力于非凡思想的跨界传播,旨在以“格物致知”的精神探讨科技、教育、生活、未来的发展。欢迎关注格致论道官网:self.org.cn,微信公众号:SELFtalks,微博:格致论道讲坛。
X 关闭
Copyright © 2015-2032 华西洁具网 版权所有
备案号:京ICP备2022016840号-35
联系邮箱: 920 891 263@qq.com