让数据顺畅流动起来!
英特尔正着力在x86芯片之外建立起更为多样的GPU架构体系,而这或许正是芯片巨头由传统制造商转为代工优先厂商的重要第一步。
英特尔即将推出的这款GPU名为Ponte Vecchio,将被搭载在采用SiPearl公司基于ARM架构芯片的超级计算机之上。
根据SiPearl公司CEO Philippe Notton的介绍,这些计算机将于2023年投入生产。除了基于ARM架构的SiPearl Rhea CPU之外,其中还将搭载RISC-V控制器。
Notton还强调,目前欧洲的高性能客户对这类系统抱有浓厚兴趣。
就在几天前,英特尔刚刚宣布将其Ponte Vecchio GPU纳入配备有SiPearl Rhea CPU的高性能计算机当中,但当时并没有提到这款CPU是以ARM Neoverse V1为设计基础。
英特尔方面没有就其GPU将在PC和服务器端与ARM处理器相兼容一事,回应我们的评论请求。
Ponte Vecchio还将与确定登陆Aurora超级计算机的至强Scalable芯片相适配,据称这套超级计算系统可实现二百亿亿次恐怖算力。
英特尔的这款超级GPU能够提供45万亿次FP32性能,其中包含近1000亿个晶体管、采用堆叠式设计,将多达128个Xe图形处理核心紧密连接在同一套网格之内。感兴趣的朋友请点击此处查阅这款芯片的具体规格信息。
SiPearl公司还在开发自己的CPU,努力达成欧盟提出的到2023年实现本土芯片制造、并利用本土原研芯片建设百亿亿级超级计算机的目标。
Notton表示,英特尔与SiPearl双方还对CPU及GPU间的低延迟通信管道做出优化。这套Compute Express Link互连规范能够有效促进CPU、GPU及其他加速器芯片之间的通信效率。
目前,英特尔正努力在GPU领域超越英伟达,而ARM则希望在高性能计算系统中与x86一较高下。当前号称全球最快的超级计算机Fugaku就运行在带有矢量扩展的ARM CPU之上。而在全球超算五百强榜单前十位中的其他系统之间,有七台搭载的是x86芯片或IBM Power处理器,同时辅以英伟达GPU。
在GPU与ARM架构兼容以及同SiPearl开展合作方面表达出的友善态度,相信会给英特尔带来不菲的回报。以此为基础,英特尔能够从欧盟手中获取更多补贴和资金,用以建造先进的晶圆代工基础设施。如此一来,芯片巨头就能更快、更顺畅地将自家GPU乃至ARM CPU交付给欧洲区域内的客户。
各国政府都在向芯片制造商投入巨资,希望以数十亿美元量级的筹码为所在地区建立起晶圆代工厂,其中就包括英特尔的800亿欧元欧洲建厂计划。英特尔也表示将开放其制造设施,生产包括ARM及RISC-V在内的多种芯片产品。
Notton还提到,英特尔的欧洲工厂将加强欧洲的芯片供应能力,并强调这也能让SiPearl公司以更为合理的成本完成芯片采购。
Notton表示,“否则我们别无选择,目前芯片只能由台湾负责制造。”
SiPearl与英特尔也在着力弥合ARM处理器与英特尔GPU在软件层面的巨大鸿沟。好消息是,英特尔的OneAPI希望为开发人员提供一站式服务,帮助他们为任意类型或架构的芯片编写应用程序。
Notton指出,“我们在OneAPI中的下一个目标,就是让开发者用户在OneAPI与ARM架构之间实现匹配。”
Notton还强调,ARM架构已经是SiPearl公司构建超级计算芯片的唯一可行选项;毕竟x86许可选项并不适用,而RISC-V还不够成熟。他指出,ARM在欧洲超级计算领域已经拥有强大的影响力,其中就包括于2015年面世、被认定为全球首批ARM超级计算机之一的巴塞罗那超级计算中心Mont Blanc-1系统。
但Notton也提到,随着ARM的欧洲血统逐渐褪色,SiPearl公司也在加快开源RISC-V的参与工作。最初的ARM是一家英国公司,之后被软银收购;而随着英国脱欧,如今的ARM正在评估英伟达的收购申请。毫无疑问,欧洲希望牢牢抓住一条自己能够掌控的计算架构血脉。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。