ZDNet至顶网服务器频道 12月05日 新闻消息:近日英特尔公司披露了多项全新的增强型技术,进一步巩固其在高性能计算(HPC)领域的领导地位。这些技术包括披露了未来的新一代的英特尔至强融核处理器(代号 Knights Hill),以及英特尔Omni-Path架构——一种针对HPC部署而优化的全新高速互连技术的架构及性能细节。
英特尔还发布了新的软件及合作计划,旨在帮助HPC社区更为轻松地释放现有及未来英特尔行业标准硬件的全部性能潜力。这些全新的HPC构建模块及行业合作计划,必将形成合力,解决实现极致可扩展能力和HPC迈入主流应用带来的双重挑战,同时为经济高效地实现百亿亿级(Exascale)计算奠定坚实基础。
英特尔宣布,其未来的第三代英特尔至强融核产品家族(代号 Knights Hill)将使用英特尔的10纳米制程工艺技术进行制造,并集成英特尔Omni-Path Fabric互连技术。Knights Hill将在即将上市的Knights Landing产品之后问世,而首批基于Knights Landing的商用系统预计将于明年开始出货。
针对英特尔至强融核处理器的行业投资仍在持续增长,预计将有超过50家供应商提供基于Knights Landing处理器的系统,而更多系统将使用该产品的协处理器PCIe卡版本。迄今为止,客户购买的Knights Landing处理器所支持系统的计算速度已超过了100 PFLOPS。
最近备受瞩目的基于Knights Landing的系统包括:Trinity超级计算机,它是美国洛斯阿拉莫斯国家实验室和桑迪亚国家实验室的合作结晶;Cori超级计算机,来自美国能源部(DOE)国家能源研究科学计算中心(NERSC)。此外,专注地球科学的公司DownUnder GeoSolutions最近宣布了现阶段英特尔至强融核协处理器的最大规模商用部署计划;国家超级计算中心IT4Innovations 也公布了一台全新的超级计算机,它将成为欧洲基于英特尔至强融核协处理器的最大集群。
英特尔公司透露:英特尔Omni-Path架构预计可提供100 Gbps的线路速率,而且在中大型集群中,能够实现比InfiniBand架构最多减少56%的交换机连接延迟。英特尔Omni-Path架构将使用一个48端口的交换机芯片,可提供比当前36端口InfiniBand架构更高的端口密度和系统扩展能力。它通过为每个交换机芯片提供多出33%的节点,预计将能减少所需交换机的数量,从而简化系统设计,全方位降低基础设施成本。系统扩展优势预计将包括:
提供1.3倍于Infiniband的端口密度,从而使较小集群从单交换机投资中获取最大效益。
相比基于InfiniBand的中大型类似集群,将交换机使用数量减少了多达50%。
采用双层结构配置,相比基于InfiniBand的集群,其相同数量的交换机可实现高达2.3倍的扩展性能,从而能够更经济高效地对基于特大规模集群系统进行扩展。
英特尔还启动了英特尔Fabric Builders计划,旨在为基于英特尔Omni-Path 架构解决方案的发展营造生态系统。此外,英特尔还透露了英特尔并行计算中心(IPCC)的扩展计划,目前已有超过40个中心分布在13个国家和地区,它们将协力为超过70个最流行的HPC社区代码进行现代化升级。
为扩展其 Lustre软件功能,英特尔发布了Lustre英特尔企业版v2.2和Lustre英特尔基版。目前在新设备中使用Lustre软件的增强型英特尔 解决方案的新设备的厂商已有戴尔、DataDirect Networks和Dot Hill 。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。