英特尔注意了:企业计算的未来已经初具雏形,其核心不一定是x86处理器。
这是市场研究公司Wikibon首席技术官David Floyer通过一系列分析中得出的结论。Floyer表示,基于精简指令集的Arm处理器,在手机和平板电脑中已经无处不在,到本世纪20年代末,Arm处理器将承载越来越多的企业工作负载,为72%的新型企业服务器提供动力。
x86芯片几乎完全是由英特尔和AMD这两家厂商设计和制造的,而与x86芯片不同的是,Arm处理器则是由十几家半导体厂商基于Arm授权的设计制造生产的。AWS和Google以及苹果等手机制造商、特斯拉等汽车制造商都采用了Arm的芯片设计。
Floyer写道:“与x86相比,Arm处理器的数量是全球晶圆数量的10倍。”这不仅降低了Arm处理器的成本,而且也让新的设计能够得到蓬勃发展。
“基于Arm处理器的系统的性能水平已经相当于或者超过了传统的x86系统。”他预计,Arm处理器及其生态系统“将在未来十年内主导企业异构计算市场”。
面向边缘的新型架构
异构计算是一种相对较新的系统设计形式,在芯片上结合了不止一种处理器,包括传统CPU、GPU、ASIC以及FPGA,还有专门为机器学习设计新型处理器——神经处理单元。
移动设备制造商在产品中采用异构计算硬件由来已久,但是数据中心已经被传统的、复杂的指令集芯片架构所主导,这些体系结构经过优化可高速处理串行任务。Floyer认为,随着边缘计算的兴起,这一切都将发生改变。
边缘架构将大量智能性置于收集数据的网络边缘,而且其中大部分处理都是实时完成的,只有少量数据会穿越网络到达中央云。最常见的例子是自动驾驶型汽车,这种汽车将处理器配置到车辆中,以便能够做出瞬时决策,仅通过网络传递摘要或者异常数据。
这种系统是基于矩阵工作负载的,这是一种涉及处理大量实时数据的应用,例如上面提到的自动驾驶汽车的例子。矩阵工作负载必须根据需要进行并行处理,因此不适用于以串行为主导的传统计算架构。
但是,基于Arm的异构计算机架构是一个理想选择,处理器和有限的中间存储介质之间的连接是灵活的、低延迟的、高带宽的。这种架构采用传统的SRAM而不是传统的DRAM,前者的架构更高,但速度更快,功耗降低达99%。由于矩阵工作负载会小批量处理信息并丢弃大量信息,因此SRAM的成本和容量限制不是一个特别重要的问题。
但是Floyer认为,Arm架构的应用将不仅限于网络边缘,还将有更广泛的应用范围。如果让矩阵和传统工作负载分别运行在基于Arm的苹果iPhone 11和基于英特尔Ice Lake处理器的PC,会发现在运行传统工作负载时,iPhone仅慢了5%,但成本却降低了70%多。在运行矩阵工作负载时,iPhone的速度提高了50倍,而成本却降低了99%。Arm系统的四年电费也能降低99%。
Floyer表示,由于处理器设计和制造的分离,Arm正在退出x86市场。例如,特斯拉通过使用Arm设计打造了一台车载计算机,在三年时间内,实现每秒处理来自8个摄像头的10亿个像素,以及对来雷达、12个超声传感器、GPS和多个内部车辆传感器的数据进行流式处理。Floyer写道:“如果处理器设计和制造不分离的话,本来这些需要六年多时间,而且要冒着可能失败的巨大风险。”
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。