对于普通大众来说,高性能计算(HPC)给人的印象总是神秘且高深。这是因为此前它主要是学术界用来推进基础科学发现和探索的手段,上到宏观的宇宙大爆炸模拟、下到微观的量子物理和分子动力学研究。
但是新冠肺炎对我们的突然袭击,让很多人重新认识了高性能计算:不论是中国还是全球,领先的基因与药物研发机构,在高性能计算的支持下,少则数小时,多则几天就破解了新冠病毒的结构,并立即开始疫苗的研制。
高性能计算与我们的工作生活越来越紧密,近日青云QingCloud重磅上线EHPC高性能计算平台,基于尖端超算算力,结合公有云架构提供弹性伸缩、按需计费的高性价比方案。同时,打通云平台丰富的产品和服务种类,创新云化超算的服务新模式,更好赋能新科研、助力新场景。
高性能计算的新场景
前面我们说过,高性能计算在基因组学、生命科学、CAE 仿真、深度学习、地理测绘、影视渲染等应用场景有着广泛的应用。
但是随着新技术和新应用的发展,高性能计算的新场景也在不断涌现。青云QingCloud云平台&服务部高级总监陈海泉告诉记者,青云看到高性能计算领域出现了新的场景,那就是大数据、人工智能正在与超算融合。
具体而言,大数据驱动存储跟算力融合。以前建设超算中心的时候,普遍是以算力为主导,但在存储方面出现新的挑战,因为数据量和数据类型越来越多,这些数据都需要利用大数据技术进行处理和分析。
陈海泉说,大数据应用带来两个问题:存储容量比以前大很多;不同类型的业务对存储的要求也不一样。所以超算中心需要对不同的业务提供合适的存储类型。
当前人工智能应用出现爆发式增长。人工智能通常指的是机器学习,机器学习最常用的技术是深度学习,深度学习又分为训练和推理两个阶段,而这些要求超算中心有充足的GPU资源,并且还要提供对应的软件框架。
在医药领域,新冠疫情加速了大数据在医药和生命科学上的应用,促进了核酸疫苗和核酸药物的研发;在金融领域,通过深度学习技术训练出模型,应用在风控上面,可以让坏账率降低35%。
青云QingCloud EHPC产品经理苗慧表示,QingCloud EHPC提供灵活的使用模式,适配多种应用场景。通过统一管理的平台,使工程师、研究人员可以突破本地的HPC基础设施限制,快速开始云上创新。
对于超算最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供GPU桌面进行图形前后处理,完成一个闭环的业务场景。
对于大数据业务,QingCloud云平台提供的对象存储容量达245PB,跟计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽有1.6T,能够保证大数据计算的超高性能。
对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。
依托青云云平台的多种存储服务,用户可以按照自己的业务来选择合适的存储类型,包括冷热类型的对象存储、全闪并行文件存储或者块存储等。
此外,通过虚拟化技术的加持,青云可以快速为不同业务构建其所需的运行环境,随时可以切换MPI、TensorFlow或者MapReduce软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。
苗慧说,整体来看,QingCloud EHPC提供了快捷、弹性、安全及互通的公有云高性能计算服务,具有四个优势:弹性伸缩,按需配置;只管使用,无需运维;资源租赁,性价比高;租户隔离,安全可靠。
革新传统超算中心使用体验
在陈海泉看来,传统超算中心存在不方便和不安全的问题,例如传统的超算中心用户,在使用时,需要提交一个申请,并且有人工审批的环节,当他得到审批通过后,还需要自己安装VPN客户端连接超算中心提供的登录节点。

超算中心的登录节点往往是很多用户共享的。共享的节点有两个问题:一是超算中心为了保证其自身安全,不提供root权限,给安装软件带来一些麻烦。比如用户需要安装系统软件的时候,他需要出差到超算中心,现场指导当地运维人员安装自己要的软件,过程非常麻烦。二是Linux隔一段时间就会暴露出一些系统漏洞,如果被用户利用得到root权限,则能窃取平台上其他用户的数据。
针对这样的问题,QingCloud EHPC融合了云服务与高性能计算,把传统的审批制度变成用户自服务的形式,并确保安全,这些举措包括计算、网络跟存储的租户隔离,管理节点跟计算节点分离;除了传统的VPN接入,青云还能提供零信任客户端,让用户登录到超算中心的时候更便捷和安全。
在保障安全的同时,QingCloud EHPC让整个超算使用很灵活,提供了两种不同类型的超算集群:偏传统的共享型超算集群和新的独享EHPC集群。QingCloud EHPC的服务架构分为三层,资源层提供了高效的资源,管理层提供了方便快捷的管理服务,用户端提供交互使用体验极佳的控制台。

最后,QingCloud EHPC还集成了化学工程、生物医药、大气海洋等多种行业软件平台。如工业仿真软件,提供一站式的使用体验:一是其求解集群能够提供弹性的算力,可以很快地完成运算;二是提供桌面虚拟应用,让用户完成图形的前后处理,覆盖用户使用工业仿真软件的整个流程。
“EHPC集群分为四个节点,分别是:登录节点、管控节点、计算节点和GPU可视化节点。这四个节点完全挂载了青云的共享文件存储以及共享软件仓库,这就是说用户所有的作业都可以使用青云的共享软件仓库。”苗慧介绍到。
超算业务大多是短期、大规模的方式,比如1万个节点使用4个小时,这就会导致两个问题:一是经常出现突发业务导致计算资源不够,其他用户要用的时候需要长时间排队;二是业务少的时候会出现大量资源空置,造成成本的浪费。
针对这样的情况,陈海泉表示,青云希望跟超算中心合作共建算力共享的算力网络,通过青云可以连接全网算力,既能以外部资源支撑突发业务,避免排队;又能在资源空置时,对外出售算力增加运营收入。
结语
凭借公有云的基因和专业的研发技术支持团队,QingCloud EHPC平台在用户体验、运维服务等方面比传统超算具有更多优势,依靠自身的超算经验以及技术领先的计算、网络、存储资源,青云能够提供更具灵活性、更好交互体验的高性能计算服务,持续赋能行业客户的业务发展。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。