集成了x86、Vega 图形、XDNA AI 和 FPGA 电路的Arm真是太棒了!
作者:Tobias Mann
更新时间:协调世界时2024年2月7日星期三21:53
AMD昨天推出了Embedded+架构,此举提出了一个问题:既然可以拥有五个计算架构,为什么还要选择一个呢?
AMD的最新产品通过PCIe将x64 Ryzen处理器与Versal AI Edge 片上系统结合,让它们可以在网络边缘等低功耗、低延迟数据处理应用的单板上使用。
主处理器可以从Ryzen Embedded R2000系列中挑选,该系列于2022年推出,拥有多达4个Zen+ CPU内核、16个PCIe 3.0 通道和多达8个 Radeon Vega图形计算单元。
该芯片有一个专用的PCIe链路,连接到AMD Versal自适应SoC,前者于2021年首次出现。这些Versal器件包含一系列AI引擎、一个FPGA和四个Arm设计的CPU内核(两个Cortex-A72和两个Cortex-R5)。在ML处理方面,AMD声称其顶级Versal芯片能够在INT8上实现约228 TOPS。
正如Embedded+这个名字所示,这种技术应该应用在相对恶劣条件下经久耐用的设备中——公共显示器、现场仪器和机械、网络边缘处理、运输和汽车等。它不见得非常尖端或者非常强大;可靠性、成本、功耗性能比、占用空间和特定工作负载验证通常更为重要。因此,可以预计这些芯片会使用较旧的架构。
事实上,AMD将目光投向了工业机器人、零售和监控安全、智慧城市设备、网络、机器视觉和医学成像;其客户会判断该硬件的延迟、特质和处理管道是否适合其应用。
AMD的工业视觉、医疗保健和科学市场高级总监Chetan Khona在一份声明中侃侃而谈:“在自动化系统中,传感器数据的价值会随着时间的推移递减,并且必须尽可能使用最新鲜的信息进行操作,以实现最低延迟的确定性响应。在工业和医疗应用中,需要在毫秒级别做出许多决策。”
为了达到这些延迟目标,AMD鼓励开发人员将工作负载分解为更小的部分,这些部分可以通过平台的各种计算架构单独加速。例如,自适应SoC的FPGA和AI引擎可对来自多个传感器或馈送的流数据进行预处理和分类,而Ryzen处理器的CPU和GPU内核则运行控制系统和图形用户界面。
当然,混合内核系统一直是这样处理的,AMD并不是第一个将混合架构置于一块板上甚至单个芯片中的公司。这是显而易见的。有趣的是,AMD不仅在Ryzen和Versal系列中采用了这种做法,还非常强调嵌入式和网络边缘端的AI,如果人们不需要,它就不会这样做。理论上如此。
在首批基于AMD Embedded+设计的系统中,Sapphire的Edge+ VPR-4616-MB非常有创意。它将四核Ryzen嵌入式R2314处理器连接到mini-ITX规格的主板上的Versal AI Edge VE2302 Adaptive SoC,据报道,该主板的功耗低至30瓦。Sapphire还计划为该主板配备内存、存储、PSU和机箱,成为完全组装的计算机。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。