英特尔今天推出了一项新的互连技术,旨在让服务器能够更好地利用图形卡、现场可编程门阵列和其他针对特定工作负载优化的加速器芯片。
Compute Express Link(CXL)旨在成为一项行业标准,可与多家硬件制造商的产品配合使用。为此,英特尔已将该技术贡献给一个新成立的联盟,有兴趣使用该技术的公司都可以成为联盟成员。联盟在成立时有六家支持者,包括思科和谷歌等知名企业。
CXL旨在将服务器CPU与设备附加的辅助加速器芯片连接起来。企业正在迅速采用加速器,特别是图形卡以加速人工智能软件等专有工作负载。
CXL基于广泛使用的PCIe标准来连接服务器组件,使用最新的第五代标准(今年早些时候正式发布),能够在某些配置下实现每秒128GB的传输性能。
英特尔已经做了大量自定义来利用这一速度优势进行芯片间的通信。CXL的主要特点之一是使CPU能够与加速器共享内存的机制,这是处理工作流程的重要组成部分。英特尔表示,该功能取代了任务通常所需的专用硬件,从而提高了系统效率。
英特尔数据中心集团负责人Navin Shenoy在博客文章中写道:“CXL保持了设备之间的内存一致性,允许资源共享以获得更高的性能,降低软件堆栈复杂性并降低整体系统成本。人工智能、媒体、图像和语言处理、加密等新兴数据处理应用将从CXL中获益匪浅。”
这次发布正值英特尔加大力度抢占加速器市场份额的时候。仅在过去一个月,英特尔就推出了一款用于处理网络流量的现场可编程门阵列,和一款旨在提高服务器安全性的三芯片PCIe卡。
更重要的是,英特尔计划明年推出第一批独立图形卡。英特尔将借助CXL应对Nvidia的NVLink互连技术,后者的芯片在该领域占据主导地位。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。