在生命科学计算、流体动力学、计算机视觉、数据挖掘、数值分析、生物医药研究、新材料开发和设计等对浮点运算能力要求较很高的领域,GPU计算正在发挥着不可或缺的强大能量,GPU异构计算已成为高性能计算潮流。
宝德作为国内首屈一指的HPC解决方案提供商,基于对市场的敏感度与洞察力,针对各类客户对于GPU服务器的不同需求层层细分,在2015年将8款全新一代高密度GPU加速计算服务器隆重推向市场,以充分满足不同客户不同应用场景的使用需求。
近日,宝德HPC解决方案在某化学物理研究所(以下简称“化物所”)成功应用,极大地提升了其高性能计算平台的计算能力,有效提升了其科学研究的工作效率,并满足了其未来的弹性扩展要求。
课题增多,计算能力捉襟见肘
该化物所重点学科领域为:催化化学、工程化学、化学激光和分子反应动力学以及近代分析化学和生物技术。目前下设十个研究室,其中有三个国家级重点实验室和四个国家级研究中心,另有筹建中的洁净能源国家实验室。自建立以来,该化物所在催化化学、工程化学、有机合成化学、化学雷射和分子反应动力学、以色谱为主的近代分析化学和生物技术等学科领域取得了大量重大科技成果。
2010年,该化物所建设了一套用于科学计算的高性能计算平台。随着化物所研究课题数量的增多,研究力度的加大,如分子反应动力学、复杂生物样品的高效分离与表征课题的深入研究等等,原有高性能平台穷于应对系统访问量巨大且应用高峰期频频出现,严重影响了科研工作者的工作效率。
在这种背景下,该化物所决定对原有计算平台进行升级,以适应新的形势,满足日益增加的科研需求,为顺利完成科研项目提供强有力的支撑。
对症下药,打造高效HPC平台
对此,宝德技术人员认真分析了客户原有高性能平台存在的不足:计算节点数量少,存储空间较小,转速偏低,模型计算过程中所产生的大量缓存文件存放于计算节点硬盘中,严重影响了内存与硬盘之间的交互效率;存储系统采用简易NAS构架,读写性能不高,且存储设备不是专用NAS设备,硬盘扩容受限,文件系统稳定性不高;计算节点与存储服务器之间采用千兆以太交换机作为数据传输,传输速率和硬盘读写速率不相匹配。
在此基础上,宝德为该化物所打造了一套高效可靠的HPC解决方案。方案中共配置 2 个管理节点,56个计算节点,高带宽、低延时InfiniBand网络做计算网络,千兆以太网做管理网络,光纤存储 GS5120FD, 大规模机房管理 KVM 切换系统、监控系统以及内置控制台等共同构成了高速计算、海量数据传输网格计算集群系统。
在该方案中,计算节点采用宝德高密度服务器PR4712GW,该服务器在4U的空间提供4个GPU计算节点,每个计算节点采用Intel C612高性能芯片组,拥有16个DDR4 DIMM插槽,最多支持内存容量1TB,支持2块热插拔3.5寸硬盘,支持3个全高全长双宽的GPU卡插槽,另提供2个PCIE 3.0 x8插槽,支持SATA/SAS,板载集成2个1Gb网络接口,支持多种不同网络选择:10Gb以太网、40Gb、56Gb InfiniBand,可实现增强的高速性能和I/O灵活性,满足不同应用程序的互联需求。
宝德高密度服务器PR4712GW
效益突出,高效、弹性扩展与绿色节能兼具
宝德全新一代高密度GPU加速计算服务器适用于高性能计算、数据挖掘、机器学习、大数据分析、互联网、金融等关键应用场景,为各行业客户提供了全方位的计算解决方案,通过GPU承担部分预算量繁重且耗时的代码,为运行在CPU上的应用程序加速,足以帮助企业完成更多计算任务、处理更大数据集、缩短应用运行时间。宝德高密度服务器PR4712GW在该化物所的应用得到了客户的认可和高度评价。
首先,整个集群系统有效地提高了化物所科学研究的工作效率。在原计算平台处理需21小时的计算任务在新平台上仅需1.5小时就能完成,显著缩短了科研项目周期。
其次,整个系统具备良好的弹性化设计。客户可灵活扩展计算节点、存储节点并切换网络设备,轻松应对未来科研项目的不断增长。
同时,该集群系统采用宝德高密度服务器,在提供强大的计算性能的前提下,为客户节约了50%机房空间、降低了37.5%能源消耗,有效降低了客户后期运行成本,响应了客户一贯坚持的绿色环保原则。
宝德作为国内领先的云计算解决方案提供商,同时也是国内HPC产品技术成熟度最高的厂商之一,为促进云计算、HPC在各行各业的应用和推广做出了很大的努力。凭借自身雄厚的技术实力及强大的合作伙伴,相信宝德将为高校和科研机构带来更多高效可靠的产品和解决方案。
好文章,需要你的鼓励
随着AI模型参数达到数十亿甚至万亿级别,工程团队面临内存约束和计算负担等共同挑战。新兴技术正在帮助解决这些问题:输入和数据压缩技术可将模型压缩50-60%;稀疏性方法通过关注重要区域节省资源;调整上下文窗口减少系统资源消耗;动态模型和强推理系统通过自学习优化性能;扩散模型通过噪声分析生成新结果;边缘计算将数据处理转移到网络端点设备。这些创新方案为构建更高效的AI架构提供了可行路径。
清华大学团队开发了CAMS智能框架,这是首个将城市知识大模型与智能体技术结合的人类移动模拟系统。该系统仅需用户基本信息就能在真实城市中生成逼真的日常轨迹,通过三个核心模块实现了个体行为模式提取、城市空间知识生成和轨迹优化。实验表明CAMS在多项指标上显著优于现有方法,为城市规划、交通管理等领域提供了强大工具。
Meta以143亿美元投资Scale AI,获得49%股份,这是该公司在AI竞赛中最重要的战略举措。该交易解决了Meta在AI发展中面临的核心挑战:获取高质量训练数据。Scale AI创始人王亚历山大将加入Meta领导新的超级智能研究实验室。此次投资使Meta获得了Scale AI在全球的数据标注服务,包括图像、文本和视频处理能力,同时限制了竞争对手的数据获取渠道。
MIT研究团队发现了一个颠覆性的AI训练方法:那些通常被丢弃的模糊、失真的"垃圾"图片,竟然能够训练出比传统方法更优秀的AI模型。他们开发的Ambient Diffusion Omni框架通过智能识别何时使用何种质量的数据,不仅在ImageNet等权威测试中创造新纪录,还为解决AI发展的数据瓶颈问题开辟了全新道路。