Open Compute Project(OCP)项目的主要成员齐心协力,共同创建了一种芯片Root of Trust(RoT)的新开放规范名为“Caliptra”,旨在现代边缘和机密计算使用场景下满足更高的安全要求。

这项新标准是近日在美国加州圣何塞举行的OCP全球峰会上宣布推出的。据称,Caliptra定义了一个可重复使用的插入式硅代码块,用于RoT测量,可以集成到任何现代的专用集成电路或者片上系统中,其中包括了新的CPU、GPU、固态硬盘和网络接口控制器。制定Caliptra标准的主要目的是提供对ASIC或者SoC安全配置的可验证加密保证,以及提供一种具有确保引导代码可信的片内机制。
OCP解释说,硬件RoT是一个与一组安全属性相关的概念,这些安全属性将片上系统的安全性固定到硬件中。这样,RoT以加密的方式确保了SoC的安全配置和工作负载保护机制,只有受信任的固件才能在这种芯片组上运行。
因此,RoT成为了加强片上系统安全特性的基础。不过到目前为止,硬件RoT的应用始终是不一致的,OCP解释说,大多数解决方案都是与片上系统分离的。随着边缘计算和云计算的兴起,以及对机密计算解决方案(数据在处理时保持加密)的需求,业界呼吁在确保RoT安全性方面要实现更高水平的一致性。
AMD、Google、微软和Nvidia等OCP成员企业表示,他们设计的Caliptra RoT标准要比之前独立于片上系统的标准有了很大的改进。他们解释说,Caliptra为片上系统嵌入式RoT安全行为和应用编程接口提供了坚实的基础,并为片上系统IP块提供了更可靠的架构。
最重要的是,Caliptra将使整个行业能够实现云部署服务器安全架构的标准化,同时使其更具可扩展性,从而提供一种满足边缘和机密计算提高安全性的方法。具体来说,Caliptra将为跨数据中心设备和组件的RoT流程提供统一的功能和管理。
Caliptra团队强调,业界对新标准的需求非常紧迫。虽然在传统数据中心,物理安全措施足以保护可能危及安全性的物理中介层,但边缘计算和机密计算却并非如此。在边缘,数据中心运营商面临着新的物理威胁因素,因为在边缘位置很难实施物理保护,所以迫切需要保护两个离散包之间的物理中介层。同时,机密计算需要封装级别和片上系统级别的证明,才足以应对很多新兴的威胁。
Constellation Research分析师Holger Mueller表示,对于为下一代应用提供动力的云计算资源来说,安全性是确保其隐私的关键。“标准有助于更快地推进安全性,并且OCP此次推出的Caliptra新标准从一开始就吸引了如此广泛的认可,所以它很有可能会取得成功并得到更广泛的采用,而且很高兴看到AMD和Nvidia等硬件制造商以及Azure和谷歌云都已经加入进来。”
AMD公司首席技术官兼技术工程执行副总裁Mark Papermaster表示:“今天,OCP发布了Caliptra 0.5规范,并通过CHIPS联盟提供了Caliptra 0.5 RTL,这标志着全行业在安全合作方面迈出了重要一步。”他称该标准是非常“了不起”的,并表示他希望其他公司也能在未来加入该倡议。
OCP方面表示,Caliptra 0.5规范现在已经可供下载,它设定了标准的基本原则和技术细节,尽管还没有达到完美的程度,但是该版本主要是要邀请更广泛的OCP社区提供意见,以确保该标准满足更广泛的行业需求。换句话说,Caliptra团队希望收到社区的反馈,以确保最终标准在计划明年上半年发布的时候满足所有人的要求。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。