对于普通大众来说,高性能计算(HPC)给人的印象总是神秘且高深。这是因为此前它主要是学术界用来推进基础科学发现和探索的手段,上到宏观的宇宙大爆炸模拟、下到微观的量子物理和分子动力学研究。
但是新冠肺炎对我们的突然袭击,让很多人重新认识了高性能计算:不论是中国还是全球,领先的基因与药物研发机构,在高性能计算的支持下,少则数小时,多则几天就破解了新冠病毒的结构,并立即开始疫苗的研制。
高性能计算与我们的工作生活越来越紧密,近日青云QingCloud重磅上线EHPC高性能计算平台,基于尖端超算算力,结合公有云架构提供弹性伸缩、按需计费的高性价比方案。同时,打通云平台丰富的产品和服务种类,创新云化超算的服务新模式,更好赋能新科研、助力新场景。
高性能计算的新场景
前面我们说过,高性能计算在基因组学、生命科学、CAE 仿真、深度学习、地理测绘、影视渲染等应用场景有着广泛的应用。
但是随着新技术和新应用的发展,高性能计算的新场景也在不断涌现。青云QingCloud云平台&服务部高级总监陈海泉告诉记者,青云看到高性能计算领域出现了新的场景,那就是大数据、人工智能正在与超算融合。
具体而言,大数据驱动存储跟算力融合。以前建设超算中心的时候,普遍是以算力为主导,但在存储方面出现新的挑战,因为数据量和数据类型越来越多,这些数据都需要利用大数据技术进行处理和分析。
陈海泉说,大数据应用带来两个问题:存储容量比以前大很多;不同类型的业务对存储的要求也不一样。所以超算中心需要对不同的业务提供合适的存储类型。
当前人工智能应用出现爆发式增长。人工智能通常指的是机器学习,机器学习最常用的技术是深度学习,深度学习又分为训练和推理两个阶段,而这些要求超算中心有充足的GPU资源,并且还要提供对应的软件框架。
在医药领域,新冠疫情加速了大数据在医药和生命科学上的应用,促进了核酸疫苗和核酸药物的研发;在金融领域,通过深度学习技术训练出模型,应用在风控上面,可以让坏账率降低35%。
青云QingCloud EHPC产品经理苗慧表示,QingCloud EHPC提供灵活的使用模式,适配多种应用场景。通过统一管理的平台,使工程师、研究人员可以突破本地的HPC基础设施限制,快速开始云上创新。
对于超算最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供GPU桌面进行图形前后处理,完成一个闭环的业务场景。
对于大数据业务,QingCloud云平台提供的对象存储容量达245PB,跟计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽有1.6T,能够保证大数据计算的超高性能。
对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。
依托青云云平台的多种存储服务,用户可以按照自己的业务来选择合适的存储类型,包括冷热类型的对象存储、全闪并行文件存储或者块存储等。
此外,通过虚拟化技术的加持,青云可以快速为不同业务构建其所需的运行环境,随时可以切换MPI、TensorFlow或者MapReduce软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。
苗慧说,整体来看,QingCloud EHPC提供了快捷、弹性、安全及互通的公有云高性能计算服务,具有四个优势:弹性伸缩,按需配置;只管使用,无需运维;资源租赁,性价比高;租户隔离,安全可靠。
革新传统超算中心使用体验
在陈海泉看来,传统超算中心存在不方便和不安全的问题,例如传统的超算中心用户,在使用时,需要提交一个申请,并且有人工审批的环节,当他得到审批通过后,还需要自己安装VPN客户端连接超算中心提供的登录节点。
超算中心的登录节点往往是很多用户共享的。共享的节点有两个问题:一是超算中心为了保证其自身安全,不提供root权限,给安装软件带来一些麻烦。比如用户需要安装系统软件的时候,他需要出差到超算中心,现场指导当地运维人员安装自己要的软件,过程非常麻烦。二是Linux隔一段时间就会暴露出一些系统漏洞,如果被用户利用得到root权限,则能窃取平台上其他用户的数据。
针对这样的问题,QingCloud EHPC融合了云服务与高性能计算,把传统的审批制度变成用户自服务的形式,并确保安全,这些举措包括计算、网络跟存储的租户隔离,管理节点跟计算节点分离;除了传统的VPN接入,青云还能提供零信任客户端,让用户登录到超算中心的时候更便捷和安全。
在保障安全的同时,QingCloud EHPC让整个超算使用很灵活,提供了两种不同类型的超算集群:偏传统的共享型超算集群和新的独享EHPC集群。QingCloud EHPC的服务架构分为三层,资源层提供了高效的资源,管理层提供了方便快捷的管理服务,用户端提供交互使用体验极佳的控制台。
最后,QingCloud EHPC还集成了化学工程、生物医药、大气海洋等多种行业软件平台。如工业仿真软件,提供一站式的使用体验:一是其求解集群能够提供弹性的算力,可以很快地完成运算;二是提供桌面虚拟应用,让用户完成图形的前后处理,覆盖用户使用工业仿真软件的整个流程。
“EHPC集群分为四个节点,分别是:登录节点、管控节点、计算节点和GPU可视化节点。这四个节点完全挂载了青云的共享文件存储以及共享软件仓库,这就是说用户所有的作业都可以使用青云的共享软件仓库。”苗慧介绍到。
超算业务大多是短期、大规模的方式,比如1万个节点使用4个小时,这就会导致两个问题:一是经常出现突发业务导致计算资源不够,其他用户要用的时候需要长时间排队;二是业务少的时候会出现大量资源空置,造成成本的浪费。
针对这样的情况,陈海泉表示,青云希望跟超算中心合作共建算力共享的算力网络,通过青云可以连接全网算力,既能以外部资源支撑突发业务,避免排队;又能在资源空置时,对外出售算力增加运营收入。
结语
凭借公有云的基因和专业的研发技术支持团队,QingCloud EHPC平台在用户体验、运维服务等方面比传统超算具有更多优势,依靠自身的超算经验以及技术领先的计算、网络、存储资源,青云能够提供更具灵活性、更好交互体验的高性能计算服务,持续赋能行业客户的业务发展。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。