Linux 基金会日新成立了一个名为UXL基金会的行业组织,目标是简化能在多种类型加速器芯片上很好地运行的应用程序编写任务。
UXL基金会倡议是在周二的西班牙举行的一个行业活动上宣布的。UXL 基金会的成立得到了半导体市场几大巨头的支持。基金会成员包括英特尔公司(Intel Corp)、Arm Holdings plc、高通公司(Qualcomm Inc)、和总部位于英国的芯片公司Imagination Technologies 公司。
业界普遍认为该举措的目的是抗衡英伟达公司在加速计算领域日益增长的主导地位。由于OpenAI 的ChatGPT等生成式人工智能应用的迅速崛起,加速计算呈现爆炸性增长。前谷歌公司工程师Kelsey Hightower在X(前身为推特)上发帖称,“我们有了一个利用GPU等加速器的开源竞争对手抗衡英伟达的CUDA平台。”
谷歌的云计算业务和富士通公司也支持 UXL 基金会。谷歌为旗下的云平台设计了定制加速器芯片。富士通公司则有一个业务部门专门生产FeRAM等半导体产品,FeRAM是一种类似于DRAM的高速存储器。
UXL 基金会的目标令开发人员可以更容易地编写可在加速器芯片上运行的软件。加速芯片是一种经过优化的处理器,可高效执行一系列的计算任务。加速器采用了专门的设计,因此通常可以比中央处理器单元更快地运行经过优化的工作负载。
目前市场上的许多加速器都是为加速人工智能工作负载而设计的。也有一些产品是专门为其他任务设计的。例如,英特尔公司的 IPU 芯片就是为加快数据中心存储和网络设备管理计算速度而设计的。
专门为一种加速芯片构建的应用在其他芯片上可能不一定能顺利地运行起来。即使其他芯片针对相同类型的工作负载进行了优化,仍然如此。因此,开发人员为了将一个软件从一种加速器移植到另一种加速器上,往往需要对代码进行大量修改,需要花费大量的时间和精力。
新成立的 UXL 基金会的工作是简化那些可在多种加速器芯片上运行的应用程序的创建过程。据UXL 基金会称,UXL 基金会计划通过创建一个“开放标准加速器编程模型”来实现这一目标。
UXL 基金会的工作的核心是一项名为 oneAPI 的现有技术,oneAPI技术最初由英特尔公司开发。芯片制造商英特尔已将oneAPI技术贡献给 UXL 基金会。开发人员利用 oneAPI可以将软件从一种加速器芯片移植到另一种芯片,所需的工作量仅为过去工作量的一小部分。
英特尔的 oneAPI 基于一种名为 SYCL 的早期技术。开发人员利用SYCL可以使用 C++(一种流行的编程语言)编写可在多种类型芯片上运行的应用程序。由SYCL驱动的软件不仅可以在加速器(如AI优化处理器)上运行,还可以在CPU和FPGA上运行,FPGA是一种可重新配置的芯片,适用于各种用例。
英特尔贡献给 UXL 基金会的 openAPI 技术扩展了 SYCL 的功能集。openAPI增加了性能优化等功能,简化了软件调试任务。此外,英特尔还提供了一个 fsoftwa 工具,可以自动调整那些为 Nvidia 公司显卡编写的人工智能软件,使这些人工智能软件能够在兼容 openAPI 的芯片上运行。
UXL 基金会表示将专注于“推动创新并在整个行业实施 oneAPI 规范”。为此,基金会计划与芯片制造商和软件开发商合作。UXL基金会还打算与行业组织合作,例如支持openAPI的SYCL技术背后的非营利组织Khronos集团公司。
UXL 基金会指导委员会主席Rod Burns表示,“基金会成员希望打造最大的加速计算开放生态系统。我们的最终目标是为所有加速器建立一个多架构和多供应商的编程平台。”
UXL 基金会计划在今年晚些时候分享有关基金会的目标和发展路线图的更多信息。
好文章,需要你的鼓励
北京大学与小红书公司联合研究团队提出的Uni-Instruct框架,成功统一了10多种现有单步扩散蒸馏方法。该框架基于新颖的f-散度扩散扩展理论,通过可计算的等价损失函数训练单步扩散模型。实验表明,Uni-Instruct在CIFAR10和ImageNet 64×64数据集上创造了新的单步生成记录,FID分别达到1.46和1.02,甚至超越了其79步教师模型。研究还成功将该方法应用于文本到3D生成任务,展示了统一框架在提升生成质量和效率方面的巨大潜力。
这篇研究介绍了KVzip,一种创新的查询无关KV缓存压缩方法,通过上下文重建机制为大型语言模型提供高效存储解决方案。该技术能将KV缓存大小减少394倍,同时提高解码速度约2倍,在各种任务上性能几乎不受影响。不同于传统查询相关的压缩方法,KVzip创建可在多种查询场景下重用的通用压缩缓存,特别适合个性化AI助手和企业信息检索系统。研究在LLaMA3.1-8B、Qwen2.5-14B和Gemma3-12B等多种模型上进行了验证,处理长度高达17万词元的文本,并能与KV缓存量化等其他优化技术无缝集成。
腾讯与上海交通大学联合推出的DeepTheorem研究突破了大型语言模型在数学定理证明领域的限制。该项目创建了包含12.1万个IMO级别非形式化定理的大规模数据集,开发了专门的RL-Zero强化学习策略,并设计了全面的评估框架。研究表明,通过使用自然语言而非传统形式化系统,即使是7B参数的模型也能在复杂定理证明上取得显著成果,超越许多更大的专业模型。这一成果为AI数学推理开辟了新途径,使语言模型能够像人类数学家一样思考和证明。
MAGREF是字节跳动智能创作团队开发的多主体视频生成框架,能从多张参考图像和文本提示生成高质量视频。该技术引入了区域感知动态遮罩机制,使单一模型灵活处理人物、物体和背景,无需架构变化;并采用像素级通道拼接机制,在通道维度上运作以更好地保留外观特征。实验表明,MAGREF在身份一致性和视觉质量方面优于现有技术,能将单主体训练泛化到复杂多主体场景,为内容创作者提供了强大而便捷的视频生成工具。