arrow
第七卷, 第二十三期
“天河一号”两个大型科学计算应用测试

来源:中国科学院软件研究所并行软件与计算科学实验室


2010年11月10日至12日,中国科学院软件研究所并行软件与计算科学实验室杨超副研究员对“天河一号”进行了为期约三天的应用测试。测试主要选用了两个算例,分别为全球大气浅水波全隐式数值模拟(受国家973项目支持)和地球外核热流动数值模拟(受国家863项目支持),均代表了同一类科学计算应用,即守恒型偏微方程组的全/半隐式大规模并行求解。这些测试程序,均以自主研制为主,运行中调用了PETSc等开源软件,并已由杨超在国内外几大超级计算机平台上进行过多次测试。测试中所采用的数据,均来源于相关应用领域中的标准应用测试数据集。
按功能模块划分,测试程序主要包含时间步进器、非线性求解器、线性求解器以及基于区域分解和多重网格的预条件子等几个部分。以往的测试经验表明,由于此类应用具有紧密耦合的特点,在MPI进程数达到数千甚至数万时,集合通信占据了量开销,对超级计算机网络系统的稳定性和通信性能(延迟、带宽等)都有非常高的要求。对这类应用,从研究经验来看,并行算法的改进所带来的收益往往高于并行Schwarz区域分解预条件子,通过与多重粗网格校正相配合,既能有效降低求解线性方程组的迭代次数,又能减少通讯、改善程序的并行性,从而在大型科学计算中实现较为理想的可扩展性。
测试中,针对“天河一号”系统每个计算节点配备二路六核CPU的特点,在每个节点开启2个MPI进程、每个进程各生成6个线程(GPU和国产CPU都暂未使用)。在国防科大技术人员的密切配合下,成功完成了数万CPU核上的可扩展性测试──对全球大气浅水波全隐式数值模拟算例,从4068至82944核,并行效率达到60%;并在地球外核热流动数值模拟中尝试了600亿未知数的运算规模,被新华社报道为当前“天河一号”上“最成功的应用案例”(如见2010年11月18日《参考消息》)。
经测试,“天河一号”系统使用方便,对于大规模科学计算而言,其可用性好、可靠性高、可扩展性强,网络性能表现优于现有的商用互连网络系统、与国外同类平台的专用高速网络系统相比并不逊色,整体性能具有优势。
我们体会,要想做好科学计算应用、尤其是“天河”等高端千万亿次计算平台上的应用,离不开应用领域、应用软件研制方、系统软件和硬件研制方等不同领域间的进一步相互配合,更离不开国家对科学计算软件研制与应用的长期、大力支持。