arrow
第六卷, 第三期
eScience,科学研究的革命


环球科学记者虞骏

托尼·海(Tony Hey)博士曾是一位粒子物理学家,现在专门为计算技术和其它科学研究牵线搭桥。和他的老朋友万维网之父蒂姆·伯纳斯-李(Tim Berners-Lee)一样,他也在关注网络及计算技术的应用——不过他关注的方向并非社会生活,而是科学研究。2008年11 月5 日,作为微软公司技术计算副总裁,他在北京参加了微软亚洲研究院为庆祝建院十周年而举办的“创新日”活动,本刊记者对他进行了专访。

《环球科学》:万维网的发明,最初是为了方便粒子物理学家之间的合作交流,如今已经极大地改变了我们的日常生活。而你一直倡导的eScience, 目的也是为科研合作交流提供平台和工具。eScience 的提出是否和万维网一样,与粒子物理学有着不解之缘呢?

托尼·海:我以前就是一名粒子物理学家, 目前在英国科学技术办公室任职, 工作就是负责英国的eScience 项目。eScience 这个单词是英国科学技术局研究理事会前任会长约翰·泰勒(John Taylor) 提出的。他经常与粒子物理学、生物学、环境科学等领域的研究人员合作,知道他们早就有一个愿望:有一天计算能够像网络搜索一样变成一项服务。这促使他提出了eScience这个概念:由计算科学家提供平台或者工具,帮助其它科学家更好地完成研究工作。粒子物理学对网络及计算能力的要求很高。明年,大型强子对撞机将开始产生海量实验数据,粒子物理学家必须把这些数据分散到世界各地,供分布在全球的上千名参与合作的物理学家分析和计算之用。为此,他们建造了所谓的“ 计算网格”, 通过这个网络把不同部门的计算机联网在一起,你可以把计算任务分散到网格上的任何一台计算机上去执行。(参见《环球科学》2008 年3 期《LHC 撞开发现之门》一文) 不过,粒子物理学家是一个十分特殊的群体——他们非常“聪明”,为了达成目的不介意在自己的机器上安装上千万条硬件连接线。根据我的经验,生物学家、化学家和环境科学家就没有这么“聪明”了。他们不愿意自己动手去安装大量软硬件,而是想得到一些“网络2.0” 式的服务来搞定这些棘手问题,好让他们专心从事自己领域内的研究工作。事实上,如何让这些不太“聪明” 的科学家方便地使用我们所提供的合作技术和数据处理技术, 这是eScience 所面临的真正挑战。

《环球科学》:在各类学术期刊上发表论文是最为传统的学术交流方式。随着互联网的发展,在线学术交流日益普遍,比如把学术论文发表在arXiv 电子文库实现共享。与这些方式相比,eScience在学术交流方面能够带来哪些便利?

托尼·海:我曾经在英国南安普顿大学担任电子和计算机科学学院院长。过去15 年来,学术期刊的价格一直在飙升,每年至少上涨10%,但是学院图书馆的经费每年最多增长3% 。所以每到年底,我都要痛苦地抉择: 明年到底要舍弃哪一本。我甚至没有经费去订阅新的期刊,因此也就无法为学院拓展新的研究方向。这件事清楚地表明,传统的学术交流模式已经过时了。但是新模式应该是什么样子,还没有人知道。
在我以前工作过的英国南安普顿大学,我坚持这样一种做法: 所有公开发表的作品,包括研究论文、会议文集、访谈记录、数据甚至软件,学院都必须保留一份电子版本。这些资料随后被汇总成一个学院级的研究资料库。我认为,未来的大学图书馆所扮演的角色,就相当于大学所有脑力劳动成果的监护人。这些数据库通过整合来实现文献共享。
我相信,计算技术将彻底变革学术交流的面貌。许多拉美国家已经把所有的研究论文汇集在一起,建立了一个名叫SciELO 的数据库。由于拉美地区语言环境复杂,这些论文使用的语言也五花八门,有西班牙语、葡萄牙语,还有英语。因此,我们在这个数据库中整合了一套在线机器翻译服务。如果设置把葡萄牙语翻译成英语,点击需要查阅的葡萄牙语论文,旁边就显示在线翻译的英语版本。这项功能很受用户欢迎,反响热烈。这个数据库中的科研论文,每个人都可以免费访问并阅读。这些数据库都建立在SQLserver 的基础之上,不光可以添加论文,还可以储存原始数据。未来, 数据库中的论文都会有链接指向原始数据, 方便阅读者查阅调用。我们正在与美国约翰斯·霍普金斯大学及《天体物理学报》(Astronomy Physics Journal) 展开合作,尝试将天文学领域的论文与原始数据链接起来。事实上,在查阅文献的时候,不光可以找到这篇论文,看到原始数据,还可以将网络上的一切相关信息全显示出来。所有这些资料都通过XML 标签绑定在一起,将来通过语义网能够很方便地查询。
除了论文和数据的共享以外,我们与大英图书馆(British Library) 合作的“ 研究信息中心”项目,还允许用户围绕数据资料做一些其它的事情。你可以开博客,写维基,点评数据库中的论文,甚至能够建立“ 社交圈”,选择让一部分人看到你的评论,另一些人则看不到。把类似于“网络2.0” 的技术结合到科学研究之中, 会是一件非常有趣的事情。这样的论文数据周边服务已经出现。
现在,你已经可以从BioMed Central 订阅一种名叫“Faculty of 1000” 的专业服务了。这家电子出版机构聘请一千多位专家,从生物医药领域每个月发表的论文中,选出他们最喜欢和最不喜欢的,并进行点评。你可以阅读这些著名科学家的评论,并且把论文品味与你相似的科学家筛选出来,重点关注他们推荐的论文。

《环球科学》:今年第6 期《环球科学》杂志提到的“ 科学2.0” 引发了巨大的争议,因为这可能会让剽窃者有可乘之机。eScience 的数据分享模式是否也可能为剽窃者打开方便之门?

托尼·海:确实有这方面的担心,但是在不同的领域, 对待这个问题的方式也不一样。在物理学界,许多论文在正式出版之前,草稿会先发表在arXiv 电子文库当中。但是,物理学界已经达成共识:草稿在arXiv 上发表的日期就是论文的正式出版日期。这样就杜绝了从草稿中剽窃想法的可能。而在生物学领域,科学家在正式论文发表之前,绝对不会让别人先看到内容。在艺术界和人文学科方面,他们的理念不同,做法也不相同。

《环球科学》:科学进步有哪些特点适合eScience 的发展?未来它的前景如何?

托尼·海:科学变化的一个重要特点就是, 以后的科学研究会涉及越来越大量的数据。未来的科学家在从事科学研究时, 需要从不同的地方甚至不同的领域获取数据,加上自己的数据分析计算,进而得出新的成果。要完成这样的工作, 需要用到许多不同的技能, 数据共享和计算能力肯定是不可或缺的。eScience 会为科学家提供众多技术,帮助他们轻松执行计算,发布研究成果,最大程度地实现资源共享及利用。我相信,eScience 能够应用于各种学科,包括自然科学和工程学,甚至艺术、人文及社会科学。日本东京大学的池内克史(Katsushi Ikeuchi) 教授将计算科学与遗产保护结合起来,他称之为eHeritage(e 遗产);把计算科学与工程学结合起来, 或许可以称为eEngineering(e 工程)。未来,字母“e” 可能不会再被特别指出,因为它将成为我们研究科学的方式和工具,就像我们今天浏览万维网一样方便简单。

( 吴锤结供稿)