算力改变世界,算力让世界更美好。
这幅悬挂在联泰集群(北京)科技有限责任公司(以下简称:联泰集群)办公区的标语让人印象深刻。“我们成立初就提供高性能计算集群产品与服务”,联泰集群软件产品中心总监孙建军介绍说。“不过伴随着近些年算力崛起和多种应用需求的迭代,如今的联泰集群也提供了包括大数据、深度学习、人工智能、云计算等众多领域的算力产品”。
联泰集群软件体系
当笔者问到“联泰集群的软件也是服务于这些产品吗?孙建军笑着说:“可以这么理解,不过从广义来说,高性能计算集群服务本身就是软硬件一体的模式,联泰集群输出的也是整体化的、软硬件协同的解决能力。特别是伴随着AI应用的兴起,如今我们的软件产品和服务也更为丰富;在很多专业的竖直应用领域我们的软件产品有着很深的经验积累”。
的确,高性能计算本身就是软硬件结合的学科。与许多人印象中冷冰冰的机器不同,高性能计算一方面需要强大的硬件基础设施支持,但另一方面也需要配套的软件调度支持;而软件层面的算力优化和优良的运维交互能力,同样会体现出不同品牌的差异化价值。就好比我们每个人用的手机,即便是相同的处理器规格、相同的运存容量,不同的操作系统创造了不同的应用环境,也带给了用户不同的体验,这一点许多人都有感受——即便是同一部手机,在安装不同的操作系统后,性能和体验表现也会不同。
这也正是孙建军所在中心的价值体现。近些年,我国在高性能计算领域成绩斐然,我们在硬件领域的实力已经得到验证,但是在软件适配性上,我们依然有很长的路要走。从这个角度来说,要想实现中国从“高性能计算大国”到“高性能计算强国”的转变,硬件与软件应用缺一不可,这也同样需要包括产学研用在内各方面的共同努力。而联泰集群作为中国高性能计算领域的“应用先锋”,这一点也是责无旁贷。
“先锋”一词这并非是对联泰集群的刻意夸奖。早在2019年的HPC China全国高性能计算学术年会上,联泰集群便荣获了“推动高性能集群应用普及先锋奖”,而在随后的2020年和2021年中国超级算力大会(ChinaSC)上,联泰集群同样凭借出色的性能在AIPerf500人工智能性能排行榜中排名靠前,展现了强大的整体实力。能够在竞争激烈的高性能计算市场获得这样的成就已经难能可贵,也证明联泰集群是一家深耕技术与应用的公司。
“我们服务过很多的客户,我们把相应的服务技术能力和服务经验固化为最佳实践,最终通过联泰集群软硬件一体化的形式交付给客户”,孙建军介绍说。相对于其他高性能解决方案提供商来说,联泰集群最特别的就是有10余年的高性能计算竖直应用领域的行业积淀;同时不断用工匠精神打磨优化软件产品。众所周知,科研领域一直是高性能计算应用的重点,而包括流体力学、分子动力学等专业中联泰集群都有丰富的解决能力与技术经验的沉淀,可以为客户提供包括计算、调度与综合管理等功能的软件在内的整套解决方案。“使用联泰集群的软件产品,不论客户是做高性能科学计算,还是私有云、深度学习等方面的应用,平台级的优化与软件支持我们已经帮客户解决掉了,客户只需专注于自己的作业代码编写、业务模型、算法本身的优化等工作就可以了,这样大大提升了客户的算力效率”。
在深度学习方面,联泰集群提供一站式的LtAI异构资源管理平台;在云计算方面,联泰集群提供LtCloud云资源管理平台,在高性能HPC应用方面,联泰集群提供LtHCS高性能计算集群系统。各个软件都从算力效率与用户体验输出最佳实践。在我们提到的LtHCS高性能计算集群系统中,产品采用了可视化的方式,可以让用户通过易用的Web图形操作界面,高效的使用HPC计算集群中的各种计算资源。相对于传统的代码管理来说,这种图形界面的好处就在于简化使用者的应用难度,降低了操作的繁琐性,也提升了用户团队的管理效率。与此同时,该系统还可以针对计算资源提供核心指标的监控统计数据,以方便用户进一步优化作业任务、高效的调度计算资源。
结合当下行业自动化运维、智能运维等应用特性,这套系统也提供了许多智能化的管理功能。比如,自动化作业管理功能可以帮助用户自动将作业脚本分发到特定分区的计算节点,按约定时间启动作业任务。使用者直接在管理平台就可以查看实时的作业计算结果,并随时查看作业的运行状态;节点自动SSH管理功能可以帮助管理员直接通过Web端连接到具体的计算节点做节点运维,不需输入计算节点服务器的帐号数据。对于大型的集群环境来说也能极大的提升了运维效率等等。
除了智能化之外,异构适配也是当下高性能计算平台架构的重要发展方向,比如GPU计算、FPGA加速等等,再比如对于ARM、RISC-V等平台的支持。以往,高性能计算大多使用的是x86架构,而要进行这种异构支撑则需要进行代码迁移,这是一项耗时耗力的工作,也会因此延误客户的应用进度,进而影响作业项目的交付周期。
为了解决这一问题,联泰集群的软件团队经过技术攻关,提供了一种类似于“乐高积木”的混搭方案。在最初规划阶段,就设计了异构平台复用架构,并实现了代码不同应用层的“解耦”。这样一来,针对不同的硬件架构的适配调优就会变得简单,而上层代码就可以无缝迁移,大大提升了效率,缩短了开发周期。“我们在设计的时候就考虑到了复用和重构的问题,留有充足的空间”。
如今,联泰集群已经深入科研、企业、互联网等多个领域当中,我们熟悉的清华大学、北京大学、北京航空航天大学等诸多名校都是联泰集群的优质客户。不仅如此,在于这些客户合作的过程中,联泰集群还开发出一种“产学研联动”的服务模式,与高校的科研力量进行合作技术开发,并携手清华大学、中科院、英伟达、北京协同创新研究院等多家单位共同推动高性能计算应用的发展。
当然联泰集群的未来之路还远不止如此。伴随着当下企业级市场云应用的大趋势,联泰集群也在积极探索算力云应用的新方式,也计划携手合作伙伴提供开放的云算力平台,实现私有云与公有云的双重服务体系。在谈到2022年发展的时候,孙建军表示伴随着算力需求的不断提升,伴随着人工智能应用的逐渐繁荣,未来联泰集群也将帮助更多的客户解决更多的实际问题,推动产业的快速发展;联泰集群也将一如既往,协助各位合作伙伴们提升算力能力,为算力赋能。
正如联泰集群墙上的标语那样:“做最好的联泰(集群),做最好的自己”。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。