arrow
第十四卷, 第二十二期
让高性能计算机开花“结果”

来源:中国计算机学会


我国研制的超级计算机已连续9次在以Linpack性能排名的HPC TOP500中夺冠,尤其可喜的是,我国学者开发的“大气动力全隐式模拟”超算应用首次获得 ACM 戈登·贝尔奖,说明中国人不但能造出世界上速度最快的计算机,而且能在超级计算机上实现其他国家还做不到的实际应用。高性能计算已像航天和高铁一样成为中国的“名片”,作为计算机科技工作者,我们为此感到骄傲和自豪。

高性能计算机不是拿来争名次的道具,而是能在科研、国防和经济建设中发挥巨大作用的基础设施。衡量高性能计算机科研成果的价值,不能停留在个别技术指标是否实现,最终要看采用我们研制生产的高性能计算机,有没有做出重大的科学发现,有没有在国防和经济建设中起到不可替代的重要作用,判断超算中心对经济做贡献的一个指标是,有多少企业用户花钱买超算中心的机时。上海超算中心近几年支持了大量的工业用户有偿使用计算中心资源,曾经用曙光4000A支持汽车碰撞试验,获得过国家科技进步一等奖,这说明高性能计算机可以对经济发展做出重大贡献。高性能计算机不但要“开花”,而且要“结果”,发展高性能计算机要以“结果”为导向。

美国Exa级(即百亿亿次)计算机计划(ECP)强调广泛的应用,包括国家安全、能源、经济、科学发现、地球、健康等领域,计划文件中充满“broad range of applications”、 “productive development and execution environment”、“a broaadly adopted software stack”等词语,这是中美两国研制E级计算机的主要差别。ECP是美国国家实验室牵头的项目, 项目主管保罗·梅西纳(Paul Messina)不是造计算机而是用计算机的专家,因此该计划充分发挥应用牵引的作用,强调应用、系统软件和硬件系统的协同,强调一体化设计(holistic design)。我国重大专项投入2个多亿做HPC软件,但与机器开发单位缺乏密切联系,不同行业的超算应用各搞各的,很难提炼出对通用系统的要求,这可能是我国HPC应用落后的重要原因。 
为了解决通用市场应用牵引问题,ECP成立了工业顾问委员会,GE、GM等十几个非计算机企业参加,这一经验值得我们学习。

机器学习已成为基础研究的重要方法,各国的E级计算机都提到要用于人工智能研究。利物莫实验室正在研制的“Sierra”计算机(ECP计划支持的预研E级机之一)和日本Exa级计算机都自称为AI超级计算机。E级计算机将是世界上最大的深度学习平台,研究E级计算机一定要从机器学习的负载特征中获得需求信息,人工智能应用可能是中国在超算上弯道超车的一条途径。

从目前的技术发展趋势来看,后Moore技术在研制E级计算机中还不能起主导作用。从Peta级到Exa级,晶体管性能只能提高50%,而并行度要提高670倍,实现E级计算机的主要出路靠提高并行性,需要系统结构、软件和应用技术协同发力。目前高性能计算机上常用的系统软件和应用软件几乎都是国外开发的,美国ECP计划中从事软件开发的并不是顶尖的一流大学,有十多所大学参与了ECP软件开发,我国也应发动更多的大学和企业开发HPC系统软件(包括runtime system)和应用软件。