ZD至顶网服务器频道 07月15日 新闻消息:
HPC博文——高性能计算(HPC)以及随后而至的大型企业计算的下一个大战场中心是高性能互连(HPI)。HPI是将系统连接在一起、并令节点之间高速通信的机制。
HPI市场是一个非常高端的网络设备市场,其主要特点是超高带宽和低延迟。
最近对HPC和大型企业数据中心做了一次调研。我发现,与2015年比,超过45%的受访者计划在2016年花更多钱在系统互连和I/O上。另外40%计划花费与2015年相同的金额。从这些结果上看,对他们来说,HPI很明显是一个重要的话题,也应该是这样。
我们在过去几年里看到的HPC方面的重大性能改进都直接拜HPI所赐。在过去四年里,互连速度以每年30%的速度增长,这种速度与穆尔定律所预测的41%年增长率也是不可小视的。
HPI:业内现状
HPI目前有三种基本技术:专有技术、InfiniBand和以太网。专有互连技术通常用于MPP系统,整个系统里由一、两个大规模应用占用。专有互连令客户可以更容易地优化自己的网络应用程序,这种技术在节点是诸如传统的全胖树拓扑结构时要便宜得多。
想使用这些专有互连的话,你只须从提供这种技术的供应商购买系统,例如Cray和SGI都是是主要玩家,还有如Bull的其他商家也提供自己的HPI设备。
一般来说,其他如InfiniBand和以太网的互连主要用于用于集群系统,同一系统里同时几个或许多HPC工作负载运行。
从500强排行榜看HPI整体市场,以太网互连选择略有优势,地球上44%的电脑使用以太网。以太网是一个颇有吸引力的技术,因为它无处不在,在有些情况下也不太昂贵。
尽管以太网的等效带宽与InfiniBand一样(100Gb/秒),但以太网在延迟方面的性能不给力。InfiniBand和专有互连的延迟在高纳秒级上,以太网则仍处于低微秒级的延迟范围,这对于高性能工作负载来说是一个严重的缺点。
就性能而言,InfiniBand胜其他技术一筹,在100Gb/秒的带宽上,其延迟小于90纳秒,每秒可传1.5亿条消息。InfiniBand路线图也很强大,200Gb/秒的InfiniBand计划于2017年发布,几年后速度将达400Gb/秒。
500强排行榜里40%的系统使用InfiniBand,主要集中在排行榜的前半部分。事实上,地球上最快的机器由中国国家并行计算机工程和技术研究中心(NRCPC)研制的太湖之光用的就是Mellanox InfiniBand HCA卡系统和交换芯片。
InfiniBand技术的主要优点之一是其“离线负载”技术。就是说,HCA卡和交换机管理和执行所有的网络操作,包括所有协议功能、数据包的设置、发送、接收等等,因而减轻了CPU处理这些琐事的负担而只需运行应用程序。
英特尔来也
英 特尔是互连市场的新手,旗下拥有全路径架构(OPA)互联技术。现在的OPA技术本质上是TrueScale产品线贴了另一个标签。。TrueScale 是几年前收购的QLogic知识产权的一部分。未来的版本会加入收购的Cray Aries互连知识产权的功能。Intel的HPI机制用的是“在线负载”技术,主CPU负责执行和管理所有的网络处理,包括组装数据包到交易完成的监测 所有的一切。
这样做可能会加重处理器的负担,特别是在应用程序“发动起来”阶段,这时所有的节点都会向主节点报告他们的结果。消息的大小可能也是一个问题,因为较长的消息需要更多的时间打包和发送。很多HPC应用程序发出的消息大小不一,这可能导致出现负载结构不平衡。
我们现在对OPA的性能了解不多,因为只有少数客户手里有这种技术。根据英特尔所说的,他们的OPA速度为100Gb/秒,延迟接近纳秒级,而且可以处理每秒8900万条消息。
这些规格与Mellanox的InfiniBand EDR(除消息速率)非常接近,但大家都不清楚在线负载机制对CPU的影响有多大。处决于集群和应用程序的大小,该影响可能非常重要,但目前无法确切地知道,因为此系统还非常新,并没有太多实际应用性能数据可用。
交锋
英特尔在与Mellanox和专有互连人士交锋时必会尽全力出击,务求在市场HPI部分的控制权上分个高低。英特尔的意图是要超越自己,不能只是卖芯片甚至系统,而是要销售整个机箱,整个塞满了包括CPU、主板、加速器和用HPI连在一起的英特尔设备在内的机箱。
这样一来英特尔即可将Mellanox一类的公司挤出HPI市场,而将诸如Cray、SGI、联想和其他公司转化成英特尔经销商,甚至在机架层次这样做。而且,这也可以减少这些公司推出具自己特色产品的能力,进而显著地削弱他们的利润率。
英特尔以其市场影响力、金融资源和公信力可以硬推OPA。他们的销售人员能接触著名HPC和大型企业客户。但由于他们用的是在线负载架构,他们的技术与市场需求的匹配可能不是太好。
Mellanox公司凭性能和路线图在竞争中占了上风,但他们要保持领先地位仍须加速发展。专有技术那帮人也必须做同样的事,以证明他们更昂贵的系统是值得的。
好文章,需要你的鼓励
Gartner预测,到2030年所有IT工作都将涉及AI技术的使用,这与目前81%的IT工作不使用AI形成鲜明对比。届时25%的IT工作将完全由机器人执行,75%由人类在AI辅助下完成。尽管AI将取代部分入门级IT职位,但Gartner认为不会出现大规模失业潮,目前仅1%的失业由AI造成。研究显示65%的公司在AI投资上亏损,而世界经济论坛预计AI到2030年创造的就业机会将比消除的多7800万个。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
人工智能正从软件故事转向AI工厂基础,芯片、数据管道和网络协同工作形成数字化生产系统。这种新兴模式重新定义了性能衡量标准和跨行业价值创造方式。AI工厂将定制半导体、低延迟结构和大规模数据仪器整合为实时反馈循环,产生竞争优势。博通、英伟达和IBM正在引领这一转变,通过长期定制芯片合同和企业遥测技术,将传统体验转化为活跃的数字生态系统。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。