来源:国家超级计算广州中心
生物信息学是一门新兴的前沿交叉学科,它综合了生物、医学和计算机科学等多个学科发展起来。随着新型生物、医学技术应用的普及,生物医学数据呈现爆炸式增长趋势,如何利用这些海量数据更加精准的诊断并给出精准的治疗方案,是生物医学面临的又一重大挑战。在超算+时代,利用超级计算机的强大计算能力融合生物医学大数据,将为精准医疗带来怎样的发展机遇2018年7月22日,国家超级计算广州中心成功举办的《生物医学大数据超级计算高峰论坛》为我们带来了很多的启发。
2018年7月22日,为进一步深化“天河二号”在生物医学中的应用,推动超算与大数据融合创新发展,国家超级计算广州中心成功举办了《生物医学大数据超级计算高峰论坛》,共有200余名生物医药领域的专家、学者出席了本次论坛。
超算中心主任卢宇彤教授在致辞中表示,超级计算和大数据处理已经成为科学研究和技术创新的重要途径,精准医疗的发展与实现离不开超算和生物医学的融合。和传统的超算应用不一样,生物医学数据来源复杂,分析方法不同,资源需求多样,实际应用的工作流程复杂,所以需要我们用新的方法、新的模型、新的技术和新的应用系统来支撑。超算中心多年来一直致力于搭建面向应用领域的软件平台,完善超算、大数据与人工智能融合架构,支持生物医药等新兴产业的发展和转型升级,期待通过此次高峰论坛,与各位专家共同探讨超算和生物医学融合的理论、技术、系统和应用的发展,希望天河二号能够更好的促进生物医学与计算机领域的专家跨界的交流和合作,为人类的健康福祉贡献智慧和力量。
精准医疗,无限创新机遇
中国科学院陈润生院士提纲挈领地介绍了人工智能与人类组学大数据结合实现精准医疗的未来发展方向。他认为目前精准医学仅处于起步阶段,精准医学的核心问题是组学大数据与医学的结合,即生物组学大数据如何应用到临床治疗的指导当中。其次,精准医学给医学带来的根本性变化在于组学指导临床,能从面向具体疾病的诊断治疗发展到面向人群的健康保障。他指出,人类对全基因组3%编码基因有了认识,而剩下的97%非编码区域与人类健康的关联规律,仍然有待挖掘。精准医学研究已成为新一轮国家科技竞争和引领国际发展潮流的战略制高点,2020年,全球健康产业预计达1.89万亿美元,陈院士呼吁大家好好把握基于大数据和先进计算手段的精准医学的创新发展机遇。清华大学国家杰青张学工教授深入地剖析了人类对生命机理的解码历程,阐述了中国医疗健康事业面临的医疗不够精准、不够普惠这两大挑战。他指出,为应对挑战,基于健康医疗大数据、人工智能、机器学习的普惠智能医疗成为众望所归的解决方案。
他还从临床角度分享了如何结合大数据实现临床方面的智能应用。
中山大学中山医学院李淼新教授介绍了基于高通量测序数据鉴定致病基因的整合分析方法的最新进展,围绕如何实现高通量测序在时间空间上的消耗,如何提升准确度等问题做了细致的分享,并对高通量测序数据在其他各类疾病的遗传研究做了展望。中山大学国家超级计算广州中心副总工杨跃东教授从蛋白质结构和功能角度介绍了利用人工智能方法预测致病基因突变,以及几个成功应用于药物研发和疾病精准诊断的成功案例,并详细介绍了天河二号生物医学平台研发的最新进展,该平台包括基因组学数据分析平台、新型药物研发平台和医疗健康数据分析平台等,目前已集成了TH-Galaxy、Rstudio、Sentieon等软件,为各高校、医疗企业、医院提供资源整合的渠道,为科学研究提供创新动力。
构建生物医药大数据共享体系
上海交通大学钱大宏教授介绍了AI辅助驱动下的医学大数据共享,基于如今医疗AI应用井喷式的发展、医疗大数据共享的强烈需求以及缺乏隐私安全保护、高效率、高质量的共享机制的现状,钱教授和他的团队提出了去中心化的医疗数据使用权交易平台,依靠分布式计算以及区块链技术为医院、科学研究者和AI企业等提供数据共享平台。中国科学院北京基因组研究所的鲍一明研究员首先介绍了主流的生物医学公开数据库多在国外,国内的数据零散且缺少共享这一现状。为了解决这些问题,北京基因组所组建了国家级的生命与健康大数据中心BIGD,并获得了国际权威认可。鲍老师还展望了BIGD今后的发展方向, 呼吁通过一些手段如杂志认可、引用机制等鼓励科研人员主动进行数据共享。
冷冻电镜应用新进展中科院生物物理所的国家杰青朱平研究员首先阐述了冷冻电镜结构解析所涉及的原理并介绍了现阶段技术进展,强调了冷冻电镜对生物大分子研究的重要意义,并展示了应用冷冻电镜研究染色体结构与表观遗传调控机制的工作,描述了一种多级双螺旋折叠结构,最后还重点介绍了冷冻电镜的最新进展及病毒染色质的结构解析进展;中科院计算技术研究所的张法研究员首先介绍了冷冻电镜三维重构的相关知识背景,然后具体介绍了其团队在基于高性能计算的单颗粒三维重构和电子断层三维重构方面的科研成果及应用实践经验。最后张法研究员展望了三维重构的问题与挑战,为了满足更高分辨率的需求必然会产生更多的生物电镜数据,利用高性能计算技术是解决上述问题的必然手段。
组学大数据推动精准医疗
西安电子科技大学的高琳教授介绍了如何通过图计算、模式识别等方法,在多组学数据中研究癌症的机制、诊断和预测这一生命科学领域的重要问题,并提出了从构建大规模、多层和异质的网络角度,结合不同组学数据进行癌症分析;中山大学肿瘤防治中心的贝锦新研究员针对多发于鼻咽部的恶性肿瘤鼻咽癌,指出高危人群筛选、早期诊断、治疗方案是关键环节,其研究团队结合组学在鼻咽癌症上的具体应用,发现了新的靶标并进行精准治疗;中山大学公共卫生学院(深圳校区)的杜向军教授对传染病防控特别是季节性流感预警做了简要介绍,提出了精准预防医学的概念,并利用组学大数据结合传统预测框架对下一年的流行病毒种类、感染人群等信息进行预测,从而得到和疫情更加匹配的疫苗方案。
超算与生物医学大数据融合发展
随着科学技术的发展,目前聚集了大量多样化的生物医学大数据,如何利用超算实现数据的存储和共享,进行高效的融合处理根据各领域的需求,超算中心需如何利用自身优势提高对科学研究、医院医疗、药物研发等的科研服务在论坛的压轴环节,主题为“超算在生物医学大数据分析中的应用”专题讨论会上,与会专家对上述问题各抒己见,开展了深入的探讨与交流。专家们一致认为,超算强大的计算资源可以提高生物医学领域的算法设计与模型验证的效率。同时,呼吁大家共同努力将生物信息学中一些通用的、成熟的基础模块与方法提取出来,以软件包、算法库的形式部署在超算上,让该领域研究者切实感受方便快捷,最终加速科研产出。
超算中心主任卢宇彤教授表示超级计算机资源可以通过高性能计算与大数据人工智能相结合的方式支持新的生物医学研究如基因分析、药物设计、致病机理、辅助医疗等。超算中心始终致力于搭建超算系统与应用的桥梁,为各领域应用提供专业分析平台,集成相应的软件和工具,全面涵盖“人—病—药”体系。最终希望生物医学领域的专家和超算中心携手共进,进一步推动超算和生物医学的创新融合,为中国生物医学领域的科学研究及产业创新贡献力量。