英国芯片厂商Arm今天表示,将在最新的Armv8-M架构中添加“Arm Custom Instructions”功能。
此举是为了让客户可以将针对嵌入式和物联网应用的特定指令添加到CPU中。Armv8-M架构是Arm现有M33 Cortex-M低功耗处理器系列的基础架构,该系列处理器主要面向一系列物联网和移动设备。
Arm的商业模式与其他芯片制造商明显不同之处在于,Arm将芯片设计许可给合作伙伴,然后由合作伙伴自己开发实际的硬件,其中很多合作伙伴都希望适配Arm的设计,这样就可以开发用于特定任务的处理器,提供更高的性能和效率。
Arm今天在第15届Arm TechCon 2019年度大会上表示,Arm Custom Instructions是建立在Arm芯片合作伙伴创新这一理念基础上的。Arm公司首席执行官Simon Segars在今天上午的主题演讲中表示:“在芯片中增加灵活性是有空间的,例如增加了并非所有工作负载都需要的计算或安全功能。”
Arm Custom Instructions让芯片设计人员可以向其M33 Cortex-M CPU中添加“自定义数据路径扩展”。Arm表示,通过这种方式他们就可以打造各种加速器,从而在人工智能、机器学习和自动驾驶汽车等边缘计算用例实现更高的性能。
Moor Insights&Strategy总裁兼首席分析师Patrick Moorhead表示:“ Arm的自定义指令可以帮助解决芯片制造商在不使用加速卡的情况下以低延迟增加加速的问题。这是一种很新颖的方法,因为它支持‘自带指令',意味着芯片制造商可以以结构化的方式添加自己的IP,而且这也不会取代高端加速器芯片。”
确实,Segars在今天上午的主题演讲中再次强调了Arm的目标,即让Arm芯片满足大范围的计算需求,特别是随着5G网络、物联网和人工智能技术发展成熟的时候。他说:“我们希望涵盖一切,从最大的计算机到最小的传感器。”
Arm表示,将于明年上半年在其M33 CPU中实现自定义指令,而无需向被许可方支付任何额外费用。
在这次大会上Arm还宣布将为针对低功率物联网设备的Mbed操作系统引入一种新的治理模型。Mbed OS包含了开发人员基于Arm Cortex-M微控制器开发连接产品所需的所有功能,包括安全性、连接性、RTOS,以及用于传感器和I/O设备的驱动程序。
Arm表示,Mbed OS Partner Governance治理模型让用户在未来操作系统开发过程中拥有更多发言权,从而加强创新。伴随这个新模型的推出,Arm将成立一个新的产品工作组,该工作组每月开一次会,以应优先考虑哪些新Mbed OS功能进行投票,而且会议对Mbed Silicon合作伙伴计划的所有成员开放。
“Mbed OS一直是开源的物联网操作系统,同时我们也在不断改变其治理方式,以便我们的芯片合作伙伴可以直接参与到未来的发展中,加大我们在构建新功能和特性方面的努力,而这对于我们扩展到一万亿个互联设备的目标来说至关重要。”
此外,Arm最近还与Robert Bosch GmbH、Continental AG、Denso、General Motors、Nvidia、NXP Semiconductors和Toyota Motor等合作伙伴宣布成立了一个新的“自动驾驶汽车计算联盟”。
该联盟的目标是尝试克服在打造全自动驾驶汽车方面的一些最大挑战,首要任务之一就是提出“针对系统架构和计算平台的一系列建议,让自动驾驶系统的性能要求与车辆特定的要求和局限相协调”。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。