关注中国医药行业发展动态的人可能都还记得:2021年6月经国家食药监管理局批准上市的某新型靶向疗法,曾在社会上引起长时间的关注与热议。大家的好奇心和讨论焦点,不仅仅在于它在临床实践中体现出的疗效是否符合预期,还有一个关键词,也频频出现在各类相关新闻报道中,那就是“120万一针”。
一款新药的使用成本为何会如此昂贵?这就不得不提及医药研发领域的一个经典说法:“十年+十亿美金”,它表明一款新药的开发,不仅周期漫长、成本高昂,而且成功率低。但与此同时,世界上还有30000多种疾病,尚未找到对症的药物。因此让更多患者有药可医,这是强劲的社会刚需,也是医学界的目标所在。
所幸的是,大数据与人工智能(Artificial Intelligence,AI)的兴起,正让新药的研发走出这个“双十”困局,使药物研发的进度得以加速,成功率得以提高,同时成本也得以大大降低。
01 新药研发搭上AI快车
AI对比人脑有着“做得更快、更准确”的先天优势,可以高效地完成各个领域中繁重复杂的工作,进而向着更加困难和更有意义的目标前进。AI领域的开创者之一尼尔斯·约翰·尼尔森教授曾经对AI下了这样一个定义:“人工智能是关于知识的学科”,这意味着AI自诞生以来,便肩负着推动人类科学发展的重任。
因此这也不难解释,为何当前在各个科学领域的前沿研究中,几乎每一次重大突破的背后都有着AI的身影。比如今天要谈的,在生命科学领域当中非常具有挑战性,被人用“九死一生”来形容的新药研发过程。
塔夫茨药物开发研究中心提供的数据显示,开发一个新药的平均成本大约为26亿美元。一般需要12-15年的时间才能将一个新药从试验室走入市场。不仅如此,5000个临床前化合物大约只有5个化合物可以进入临床试验,最终只有一个才能被批准用于临床治疗,成为真正的药物。
如今,随着大数据、AI技术渗透到生产生活的各个领域,医药行业也开始借助包括AI在内的新技术,用更经济、更有针对性的方法开发新药。最近10年,随着云计算等大规模算力的普及,以及以深度学习为代表的AI算法在多个领域的快速发展和应用,AI开始在药物研发的各个关键环节发挥越来越重要的作用。
来自TechEmergence的报告显示,AI可以将新药研发的成功率提高16.7%,AI辅助药物研发每年能够为药企节约540亿美元的研发费用,并在研发主要环节节约40%至60%的时间成本。
另据2020年6月发表于Drug Discovery Today杂志的文章显示,21家头部跨国药企在2014-2019年共发表398篇与“AI药物研发”相关的论文,同时启动了73项内部AI研发项目、61项与外部AI公司合作的项目、以及11项对初创AI企业的投资或收购。
从类似这样的、越来越多的投入和案例中可以看到,AI已经成为助力药物研发模式升级的一个关键因素。
02 从蛋白质结构打开攻克疾病的缺口
蛋白质是生物体内一切功能的执行者,人类身体内的任何功能,从催化化学反应到抵御外来侵略都是蛋白质作用的结果,在氨基酸根据基因表达的信息形成一条多肽链之后,必须折叠形成正确的三维空间结构才可能具有正常的生物学功能。如果在折叠过程中出现故障,形成错误的空间结构,不但将丧失其生物学功能,还会引起各种疾病。
对蛋白质三维结构开展有效解析与预测,就能对有机体的构成,以及运行和变化的规律实施更深层次的诠释和探究,进而可为生物学、医学、药学乃至农业、畜牧业等行业和领域的未来研究与发展提供高质量的生物学假设。
为了解蛋白质的结构,传统的实验方法是使用X光、冷冻电镜等方法对蛋白进行拍照,每一个样品可能需要几个月,甚至于几年的时间,才能够高精度地完成拍照。在国际深具影响力的SwissProt数据库上,累计的蛋白序列的信息已经达到了56万之多,传统的实验方法很难去满足几十万量级甚至于未来几百万量级的蛋白序列结构解析的需求。
在这个时候,AI开始发挥神奇的作用。
2020年,在第14届国际蛋白质结构预测竞赛(CASP)上,DeepMind研发的AlphaFold2成功根据基因序列预测了生命基本分子——蛋白质的三维结构,取得了中位分数为92.4(满分100分)的好成绩,比第二名高25分,打败了所有竞争对手。
一般来说,AI方法的预测精度超过90分,可认为预测结果与实验方法得到的蛋白质结构基本一致。这一突破,标志着AI辅助药物开发的基础理论研究和实践进入新的阶段。
AlphaFold2,凭借自身在蛋白质结构预测上的高可信度,以及远优于传统实验方法的效率和成本表现,树起了一座“AI for Science”的全新里程碑。它不仅在生命科学领域掀起了颠覆式的革新,也成为了AI在生物学、医学和药学等领域落地的核心发力点。
这从中国科学院院士施一公评价AlphaFold2“这是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一”中可见一斑。
在英特尔和国际学术期刊《Science》联合推出的《架构师成长计划》课程中,来自中国智能化、自动化药物研发科技领域明星企业晶泰科技的首席研发科学家杨明俊博士这样谈到:“以AlphaFold2为代表的研究成果,被认为是开拓了科学研究的第四范式,就是基于大量的数据,然后采用以深度神经网络为代表的模型,给出对问题的一个解答。”他说,“蛋白质结构预测曾经被认为是不可能完成的一件事情,如今被AI算法实现,这标志着AI在生物医药领域的融合迈入了一个全新的阶段,成为大势所趋。”
03 AI找药,需要什么样的“加速器”
随着越来越多的科研机构、实验室和企业开始借助AlphaFold2进行蛋白质结构预测,各行业和领域内的使用者也开始遇到越来越多、也渐趋严峻的挑战。例如结构预测各环节面临着庞大的计算量,使用者需要更加充分地挖掘硬件的计算潜力来提升执行效率;为缩短结构预测时间,他们还需要利用更多计算节点来构建效率更高的并行计算方案等。
英特尔人工智能架构师杨威博士说,AlphaFold2可以高效率地去进行一个蛋白结构的解析,但是其原始实现其实存在两方面的优化空间。
一方面由于算法和硬件架构本身的特点,它强依赖于一些AI专用加速芯片的支持,但是这类硬件存在严重的内存或显存限制,使得它在单芯片或单卡情况下能够预测的蛋白质序列长度较短(比如2000氨基酸长度的蛋白,其内存峰值将超过200GB)。另一方面,使用原始实现在CPU上进行推理速度较慢,很难在可以接受的时间范围内完成高通量和长序列的预测需求。
正因为有这些限制,英特尔正在与众多产、学、研领域的合作伙伴及客户一起研究用内存容量优势更为明显的CPU平台来加速AlphaFold2,但即便如此,在AlphaFold2的嵌入层中也容易遇到两个问题:一方面是巨大的内存峰值压力,其需求量会使内存资源在短时间耗尽,尤其是内存峰值在相互叠加之后,进而可能造成推理任务的失败;另一方面,大张量运算所需的海量内存也会带来不可忽略的内存分配过程,从而增加执行耗时。
通过对算法架构的解析可知,AlphaFold2中大量的矩阵运算过程都需要大容量内存予以支撑。其最大输入序列长度越长,计算中所需的内存也就越大。而在并行计算能力得到有效优化后,更多计算实例的加入也会进一步突显内存瓶颈问题。
如果用“星际探索”来比喻的话,对3GEH蛋白的结构预测就相当于探索地球;对某新型传染病相关的刺突蛋白进行结构预测就相当于将探索扩大到了整个太阳系,对诺贝尔生理学或医学奖发现的PIEZO1/2蛋白的结构预测则是进一步将探索扩展到了银河系,对低密度脂蛋白受体相关蛋白2(LRP2)的结构预测,就相当于探索宇宙了。
在实践中,进行3GEH蛋白(长度为765aa)的结构预测,内存大小满足96GB就足以。而对Spike蛋白和PIEZO2蛋白进行预测时,由于序列长度分别达到了1200aa和2700aa,就需要部署大于512GB的内存。而当人们对LRP2蛋白进行预测时,其4700aa的序列长度要求的内存就远大于1.3TB。如果64个实例并行执行,内存容量的需求更是会冲到一个令人惊叹的量级,如果内存系统无法满足这个需求,就会形成阻碍应用效能发挥的“内存墙”。
一直活跃在“AI for Science”创新前沿的英特尔结合自身优势,以内置AI加速能力的产品技术,特别是至强® 可扩展平台和傲腾™ 持久内存的组合,在CPU平台上更便捷地提供了TB级的内存支持,打破了“内存墙“,对AlphaFold2实施了端到端的高通量优化,在实践中实现了比专用AI加速芯片更为出色的表现,累计通量提升可达优化前的23.11倍。
在这个全新的加速方案中,第三代英特尔® 至强® 可扩展处理器也凭借出色的微架构设计,尤其是多核心、多线程和大容量高速缓存,为AlphaFold2提供了充足的总体算力,以满足整个结构预测过程所需;另一方面,这款处理器内置的英特尔® AVX-512技术,也能在英特尔® oneAPI 相关软件优化工具的激活下,输出额外的并行计算加速支持,为方案提供更进一步的性能调优空间。
这个加速方案的实验结果显示,对于一个含有765氨基酸的蛋白质测试样例,在64个物理核同时并发的情况下,最高的内存消耗达到3.2TB,其测试通量可从未经任何优化的4.56序列/天,达到优化后的105.35序列/天。而且如果在单节点上配备最高8TB内存的话,就可以支持完成高于1万氨基酸序列长度下蛋白结构的预测。
从这个结果展开思考,就会发现:通常情况下,虽然在需要围绕大规模的训练以及算法的迭代更新时,各类专用AI加速芯片会作为固定演员扮演既有角色,但是这也意味着,所有入场者都需要为这种异构平台的建设和充分利用投入更多的财力并加强相关人才储备。
但如果是仅仅利用成熟的算法模型来做推理,用以支持科研项目的开展而非算法本身的演进呢?或者是已经拥有了异构平台,但一直难以突破蛋白质预测长序的限制呢?CPU+大内存的方案在这些场景下就有更为明显、甚至是独特的优势了。
换言之,这就相当于所有相关行业和领域的从业者们自此有了更多也更为灵活的选择,他们既可以选择较为复杂的异构平台来探究AI算法的巅峰或极限,也可以借助更为普及、也更易于获取和使用的通用平台作为科研实践的加速器。当然,后者这些天然优势,也会降低AI在医药和生命科学领域落地的门槛,让更多从业者能够搭上AI for Science或AI找药的“快车”。
04 给科研送上“神助攻” 不止是AI
为推动生命科学这一前沿科研领域中的相关应用落地,《“十四五”生物经济发展规划》提出要开展前沿生物技术创新,突破高通量筛选、高效表达、精准调控等关键技术,推动在新药开发、疾病治疗等领域的应用。
得益于AI技术的高速发展和演进,它与科学前沿研究的结合正在快速地改变世界并造福人们的生活。杨明俊博士说,AI药物研发是一个新兴的交叉学科,它不仅对生命医药行业产生深远的影响,也对提高人类寿命的长度和质量有重要意义,“让AI流淌进每一款新药,让患者更快地获得有效治疗。”
如今,中国生物医药行业经历了跟踪仿制和模仿创新阶段,正处在向源头创新的更高阶段迈进。同时中国新药创制核心竞争力也在不断得到提升,未来将会在全球研发中发挥更大的作用。
窥一斑而知全豹,尽管药物研发只是生命科学领域中的一环,但是这并不妨碍从中能够看到AI和传统科研结合带来的巨大潜能,从而深刻地理解“AI for Science”为何能成为当前的重要趋势。而更加重要,也更需要重视的是,除AI之外,大数据和HPC也曾经和正在推进着类似的范式革命,驱动着重大的科学探索及发现。而位处算力创新源头,产品涵盖计算、存储和通信等多个维度的英特尔,也正通过构建全面且均衡的计算平台,基于软硬件之间的无缝组合与高效协作,以及多样化的优化方法,在满足各方面需求的同时,通过联合产业链各个环节的合作伙伴,致力于给科学研究送上更多神助攻,促发更多前沿领域的科研新发现。
参考白皮书:https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/alphafold2-throughput-improvement-optimization.html
架构师成长计划链接:https://bizwebcast.intel.cn/wap/eventstart.aspx?eid=328&tc=12m0u5kiss&frm=wechatkol
好文章,需要你的鼓励
Ceph平台通过单一解决方案提供大规模可扩展的对象、块和文件存储。IBM Storage Ceph自2023年1月起成为IBM存储产品组合和软件定义存储的一部分,可在行业标准x86服务器硬件上运行。它可以从小型工作负载开始,并可扩展到PB级工作负载。
国产算力PoC平台主要聚焦于为国产算力集群提供垂类场景评测、适配与验证服务,促进国产芯片从“可用”到“好用”,同时为互联网、AI 应用开发企业提供多种算力适配试验空间,找到适合不同场景的“芯片+软件”最佳组合。