ZD至顶网服务器频道 07月15日 新闻消息:
HPC博文——高性能计算(HPC)以及随后而至的大型企业计算的下一个大战场中心是高性能互连(HPI)。HPI是将系统连接在一起、并令节点之间高速通信的机制。
HPI市场是一个非常高端的网络设备市场,其主要特点是超高带宽和低延迟。
最近对HPC和大型企业数据中心做了一次调研。我发现,与2015年比,超过45%的受访者计划在2016年花更多钱在系统互连和I/O上。另外40%计划花费与2015年相同的金额。从这些结果上看,对他们来说,HPI很明显是一个重要的话题,也应该是这样。
我们在过去几年里看到的HPC方面的重大性能改进都直接拜HPI所赐。在过去四年里,互连速度以每年30%的速度增长,这种速度与穆尔定律所预测的41%年增长率也是不可小视的。
HPI:业内现状
HPI目前有三种基本技术:专有技术、InfiniBand和以太网。专有互连技术通常用于MPP系统,整个系统里由一、两个大规模应用占用。专有互连令客户可以更容易地优化自己的网络应用程序,这种技术在节点是诸如传统的全胖树拓扑结构时要便宜得多。
想使用这些专有互连的话,你只须从提供这种技术的供应商购买系统,例如Cray和SGI都是是主要玩家,还有如Bull的其他商家也提供自己的HPI设备。
一般来说,其他如InfiniBand和以太网的互连主要用于用于集群系统,同一系统里同时几个或许多HPC工作负载运行。
从500强排行榜看HPI整体市场,以太网互连选择略有优势,地球上44%的电脑使用以太网。以太网是一个颇有吸引力的技术,因为它无处不在,在有些情况下也不太昂贵。
尽管以太网的等效带宽与InfiniBand一样(100Gb/秒),但以太网在延迟方面的性能不给力。InfiniBand和专有互连的延迟在高纳秒级上,以太网则仍处于低微秒级的延迟范围,这对于高性能工作负载来说是一个严重的缺点。
就性能而言,InfiniBand胜其他技术一筹,在100Gb/秒的带宽上,其延迟小于90纳秒,每秒可传1.5亿条消息。InfiniBand路线图也很强大,200Gb/秒的InfiniBand计划于2017年发布,几年后速度将达400Gb/秒。
500强排行榜里40%的系统使用InfiniBand,主要集中在排行榜的前半部分。事实上,地球上最快的机器由中国国家并行计算机工程和技术研究中心(NRCPC)研制的太湖之光用的就是Mellanox InfiniBand HCA卡系统和交换芯片。
InfiniBand技术的主要优点之一是其“离线负载”技术。就是说,HCA卡和交换机管理和执行所有的网络操作,包括所有协议功能、数据包的设置、发送、接收等等,因而减轻了CPU处理这些琐事的负担而只需运行应用程序。
英特尔来也
英 特尔是互连市场的新手,旗下拥有全路径架构(OPA)互联技术。现在的OPA技术本质上是TrueScale产品线贴了另一个标签。。TrueScale 是几年前收购的QLogic知识产权的一部分。未来的版本会加入收购的Cray Aries互连知识产权的功能。Intel的HPI机制用的是“在线负载”技术,主CPU负责执行和管理所有的网络处理,包括组装数据包到交易完成的监测 所有的一切。
这样做可能会加重处理器的负担,特别是在应用程序“发动起来”阶段,这时所有的节点都会向主节点报告他们的结果。消息的大小可能也是一个问题,因为较长的消息需要更多的时间打包和发送。很多HPC应用程序发出的消息大小不一,这可能导致出现负载结构不平衡。
我们现在对OPA的性能了解不多,因为只有少数客户手里有这种技术。根据英特尔所说的,他们的OPA速度为100Gb/秒,延迟接近纳秒级,而且可以处理每秒8900万条消息。
这些规格与Mellanox的InfiniBand EDR(除消息速率)非常接近,但大家都不清楚在线负载机制对CPU的影响有多大。处决于集群和应用程序的大小,该影响可能非常重要,但目前无法确切地知道,因为此系统还非常新,并没有太多实际应用性能数据可用。
交锋
英特尔在与Mellanox和专有互连人士交锋时必会尽全力出击,务求在市场HPI部分的控制权上分个高低。英特尔的意图是要超越自己,不能只是卖芯片甚至系统,而是要销售整个机箱,整个塞满了包括CPU、主板、加速器和用HPI连在一起的英特尔设备在内的机箱。
这样一来英特尔即可将Mellanox一类的公司挤出HPI市场,而将诸如Cray、SGI、联想和其他公司转化成英特尔经销商,甚至在机架层次这样做。而且,这也可以减少这些公司推出具自己特色产品的能力,进而显著地削弱他们的利润率。
英特尔以其市场影响力、金融资源和公信力可以硬推OPA。他们的销售人员能接触著名HPC和大型企业客户。但由于他们用的是在线负载架构,他们的技术与市场需求的匹配可能不是太好。
Mellanox公司凭性能和路线图在竞争中占了上风,但他们要保持领先地位仍须加速发展。专有技术那帮人也必须做同样的事,以证明他们更昂贵的系统是值得的。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。