经过一系列前期调研、项目招标、系统部署等复杂工作,2010年6月,吉林大学基于英特尔至强处理器的浪潮TS10000高性能计算平台成功建成。据介绍,该HPC(高性能计算)平台的CPU计算能力达到了40TFLOPS(万亿次浮点运算能力),居于全国高校同类系统之首,并成功跻身2010年6月份全球高性能计算机TOP500,位居第239位。
对于这个“中国高校HPC第一”的排名,吉林大学计算机科学与技术学院院长,同时也是该HPC项目负责人之一的胡亮教授却显得不甚在意,他说:“排名都是比较虚的东西,事实上我们建高性能平台就是希望满足用户的需求,这是最根本的出发点。”
据介绍,吉林大学是国家“985”、“211”重点建设的一所综合性大学,学校的学科分类非常齐全。学校很多学科在科研过程中都对高性能计算有着非常强烈的需求,例如,理论化学、汽车、生物信息等。之前,吉林大学也并非完全没有计算资源,但是没有一个相当规模的学校级的HPC中心,只是每个学院或者国家实验室有自己小规模的HPC中心,而且计算资源严重不足。例如,超应用材料实验室的老师需要到上海租用HPC资源,长春和上海比较远,使用过程中多少有不便之处。而电子学院的老师是自己买PC机,用低速网络自己搭建了一个比较“粗糙”的集群进行科研。
其次,吉林大学引进了一些优秀人才,他们到学校工作后,很多人都提出了HPC需求,例如申请200万组建一个小的高性能计算中心。此外,胡亮表示,吉林作为东北重工业基地之一,拥有一汽集团、吉化集团、应化所等很多大型的企事业单位,他们也有较强烈的HPC需求。基于这些原因,吉林大学的校领导,决定筹建一个学校级的公共HPC中心。
事实上,这样一个公共的HPC中心存在诸多好处:一是,把资金集中起来可以购买到更便宜的设备,提高投资效率;二是,分散的HPC中心负载不平衡,有的学院的HPC资源很忙,有的学院很清闲,把资源集中起来可以很好地实现资源共享;三是,HPC中心实际上对后续服务和技术支持要求比较高,并不是说每个学院都有这样的技术能力,由学校牵头可以提供更好的技术支持和保障;四是,可以对校外的企业、政府等提供HPC服务,促进区域经济的发展。而这一设想得到了吉林省、市政府的相关部门的重视和支持,例如,吉林工业信息厅不仅拨款200万,而且承诺以后每年都会对HPC中心给予支持。
40TFLOPS 与1300万
众所周知,HPC的建设和运营都是极其“烧钱”的事,而学校的经费又比较紧张,因此,虽然不在意HPC排名,但是对于只用1300万就获得40TFLOPS的运算能力,胡亮显得很是开心和满意,表示这要“大力感谢英特尔公司、浪潮公司给予的众多支持”。
据胡亮介绍,在项目招标时,当吉林大学表示只能拿1300万建一个40TFLOPS的系统时,八家前来投标的公司立刻被“吓跑”了好几家,认为不可能用这么少的钱搭建这么大的系统。而英特尔、浪潮则表示了最大的诚意,两家公司多次来做报告,帮助吉林大学细致地规划整个HPC平台,分析怎么样花最少的钱达到最好的性能。
尤其,在系统选型过程中,正是英特尔5600、7500系列处理器呼之欲出的时候,是选择最新的5600系列,还是选择口碑颇好、且经过市场检验的至强5500系列?吉林大学还是比较犹豫,因为考虑到5600系列在制程工艺上做了改进,同样面积的芯片上可以集成更多的内核,所以会担心内存带宽存在瓶颈,而且也不清楚性能究竟能提高多少。
一切当然只能靠测试数据说话。吉林大学选取了一个内存访问密集型HPC应用,即测试二氧化硅晶体结构的程序,和服务器供应商一起,首先在至强5500平台上进行了测试。由于没拿到至强5600,吉林大学委托英特尔用同样的程序进行测试。测试结果表明,最保守的情况,至强5600系列的性能也比至强5500系列高出了20%,而功耗却没有增加。
除了性能之外,吉林大学之所以最终选择至强5600系列,还出于以下的考虑:一是英特尔给予大力支持,至强5600的报价与5500的相同,花同样的钱买到更好的计算能力肯定划算;二是,HPC中心建完之后的主要开销来自电费,而至强5600系列的功耗与5500的是一样的,这意味着买了更多计算能力的同时,没有造成运营成本的增加,这也是划算的事情;三是,尽管没有用户对新的产品、新的芯片做过测试,但是由于体系结构没有变化,是一个平滑过度,因此,相对而言技术风险比较低,吉林大学认为也是可以承担的;四是,至强5600系列的管脚和5500一样,供应商的主板不需要变化,供货周期没有影响,对HPC中心的建设周期时间来说也就没有什么风险。
由于吉林大学的HPC应用里有不少内存密集型应用,例如吉林大学理化所的诸多应用,因此,还专门采用了支持“大内存”的至强处理器7500来部署了四个“胖节点”。胡亮表示,将来会抽出工信厅给的资金来继续扩充“胖节点”。
为了保障未来HPC平台的运营,今年5月,吉林大学还成立了专门的高性能计算中心。该中心目前有主任一名、副主任两名、工作人员五名,负责HPC系统的日常运行和维护工作;并且设有专家用户委员会为该中心提供咨询和监督,以及负责制定方针政策和重大决策的领导工作小组。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。