近日,2023年开放计算中国社区技术峰会(OCP China Day 2023)在北京举行。本届峰会由全球最大的开放计算社区OCP主办、浪潮信息承办,以"Open Momentum:智能化、可拓展、可持续"为主题,聚焦数据中心基础设施创新与可持续发展、开放计算创新与生态建设、社区协作创新等议题。
在“数据中心基础设施创新”分论坛,来自CXL联盟、三星、浪潮信息、晶丰明源、世纪互联、村田等嘉宾分享了如何构建一个智能、绿色且高效的算力输出平台,共同探讨数据中心基础设施技术和产业的发展方向。
CXL技术创新实践与探索
在算力需求激增的同时,内存的扩展要求也在持续提升。CXL技术是一种新型的高速交换技术,旨在提供更高的数据吞吐量和更低的延迟,以满足现代计算和存储系统的需求。
内存解耦与池化一直是业界的热点与难点,但以CXL为代表的高速串行缓存一致性总线的出现,给主机和远端共享内存之间提供了低延时的访问路径以及缓存一致性保证,为大规模内存扩展与内存资源池化提供了可能。
CXL联盟创始成员、前总裁、OCP Server项目组牵头人Siamak Tavallaei在《CXL概述及OCP内部与CXL相关活动的现状》主题演讲中表示,OCP正在开展一系列CXL相关的活动,如可组合内存系统、数据中心就绪的模块化硬件系统,和扩展连接性工作流,以研究和记录基于PCIe和CXL的NVMe和可解耦数据中心的未来计算、存储、加速器和内存连接场景的通用性和差异性。
CXL的目标是消除CPU和设备、设备和设备之间的内存鸿沟,通过内存与主机的解耦,在逻辑上构建可远端共享的内存资源池,让多台主机访问同一个内存池,大大提高数据交换的效率,并实现动态内存扩展。
在CXL应用实例方面,三星电子西安研究所存储解决方案部技术总监何兴在《三星CXL存储解决方案 通往大数据时代的创新》演讲中介绍了三星CXL存储解决方案。针对AI和机器学习模型的趋势,三星提供了一系列的解决方案,比如HBM产品。
三星一直致力于CXL技术的研究和开发相关产品,2021年推出了三星首个CXL产品以及SMDK软件协议栈。今年,三星开发了支持CXL 2.0的512GB CXL DRAM,支持PCIe 5.0接口,采用EDSFF(E3.S),加速下一代存储解决方案的商用化,从而帮助企业将有限的资源重新投资于增强服务器内存中去,加速扩大CXL生态体系。
何兴表示,CXL协议技术演进非常快,关于CXL的产品和解决方案也越来越多。三星也会持续的在CXL方向上不断技术创新,开发出满足业界的解决方案和相关的产品。
企业级SSD技术发展与应用实践
存储技术也在迅速发展,比如SSD承载的业务越来越多,包括关键业务和数据库等。而随着AIGC的发展,大模型应用也部署在SSD上面。
浪潮信息存储产品线SSD总经理王杰华在《企业级SSD技术发展与应用实践》演讲中表示,回顾过去5年,整个SSD行业蓬勃发展,国内企业级SSD每年30%高速持续增长。浪潮信息持续打造面向场景化的SSD,将QLC和ZNS的技术积累转化为产品。
SSD永恒的主题是安全数据不能丢失,高效场景化的优势,以及极致的性价比。浪潮NS8000G7支持OCP协议、PCIe5.0和IPSec,保证数据的完整性和安全。特别是浪潮信息设计了一套多级错误恢复方式,可以直接复用OCP协议接口,从而提升整个数据的安全性。
今年年底浪潮信息还将将发布基于ZNS架构的PCIe 4.0 SSD,寿命提升70%,ZNS性能提升210%。未来,浪潮信息将持续升级企业级SSD,创新关键技术,降低客户TCO的同时提供高运维效率等优势,助力企业加速数字化转型。
AIGC为数据中心运营商带来机遇
AIGC为数据中心运营商带了巨大的市场空间,从2023年到2026年,我国智能算力发展前景广阔,这对于数据中心行业来说是千载难逢的机遇。
数据、算法、算力等都对基础设施提出更多的要求,比如目前机柜电力的密度越来越高,现有数据中心在末端配电、制冷等方面存在不足,高效、低碳、绿电成为对数据中心运营商的新要求。
面对人工智能要求,数据中心运营商需要提供广分布的高密度机柜服务,满足客户的多样化算力以及更低时延网络连接需求,还需要提供更多的各种公有云和跨数据中心的数据连接。
世纪互联资深专家高昆在《数据中心运营商如何迎接人工智能和高算力的挑战》演讲中表示,具备自平衡能力的AGI(通用人工智能)科创型数据中心,特点是支持超高密度机柜、满足较大波动性要求、具备高扩展性、拥有高速可靠网络连接、可实现多云连接。世纪互联针对不同的区域,比如在京津冀、长三角、珠三角拥有高电园区、高电机柜。另外,世纪互联承诺不晚于2030年,实现运营层面范围1和范围2碳中和,实现运营层面100%可再生能源使用。
世纪互联还搭建大模型集成平台,帮助客户解决支持大模型预训练和推理的技术难题,,从而让客户专注于自身的核心业务。“世纪互联致力于打造更加开放和创新活力的新一代互联网基础设施。”高昆说。
算力基础设施的电源创新
随着智能时代的到来,算力的爆发超乎我们过往的认知,算力往往又与电源密不可分。晶丰明源DCDC事业部高级FAE经理胡卫波在《人工智能时代的电源解决方案》演讲中表示,高效且可靠的电源解决方案是算力基础的保障。晶丰明源专注于电源管理和电机控制芯片的研发和销售,在工艺、封装、静开关、数字控制等领域具备核心技术,其中DC/DC电源管理芯片产品覆盖6A到数千A应用场合,可以为CPU、GPU和AI等大功率计算芯片供电,广泛应用于PC、服务器、数据中心、基站和自动驾驶等领域。
最早时候OCP的代表性产品是整机柜服务器,作为整机柜产品形态对应算力的输出需要电源支撑。村田为数据中心的节能、安全、智能、高效运行提供有力支撑,包括可满足使用Open Compute Open Rack V1、V2和V3标准的数据中心部署标准要求的整体电源解决方案。
村田电源产品技术专家杨宁在《用于整机柜供电的多种电源产品方案》演讲中表示,随着数据中心的迅猛发展,其能耗问题也越来越突出,可靠的数据中心电源解决方案,是提高数据中心电能使用效率,降低设备能耗的有效方式。村田的供电电源及电池备份解决方案,通过安全、高性能的集中式供电,追根溯源,提供底层解决方案,有效降低数据中心运行过程中产生的热量,并将其转换为算力,从而提升数据中心的能耗使用效率。
OpenBMC技术应用与实践
BMC是在服务器中嵌入的复杂而独立SOC(System on Chip)系统,是互联网、通信、金融等用户数据中心集中运维管理IT设备的核心组件,对服务器安全可靠运行、远程集中管理和控制部署至关重要。
由于传统BMC固件存在着诸多问题,且随着数据中心的不断壮大,运维需求越来越向精细化、定制化的趋势发展,业界开始探索更加开放先进的BMC固件发展之路——OpenBMC顺势而生。
浪潮信息技术研发部固件研发经理王兴隆在《OpenBMC技术应用与实践》演讲中表示,作为开源技术的拥护者与重要贡献者,浪潮信息积极拥抱OpenBMC。早在2017年,浪潮信息就积极参与贡献社区,并陆续完成多款主流服务器产品的OpenBMC适配。2022年,浪潮信息在OpenBMC社区开源代码贡献排名中,连续4年保持全球前五和中国第一,年度贡献代码13000余行,累计贡献代码60000余行,参与代码Review 3000余次,广泛覆盖Redfish、PLDM、LED、USB升级、OCC、时间管理、电源控制等模块,推动了社区的健康发展。
基于OpenBMC方案,浪潮信息构建起更加稳定可靠、更具扩展性且芯片级安全的开放架构管理固件——InBry管理固件平台,将广泛应用于通用服务器产品。
InBry管理固件平台在OpenBMC社区开放代码的基础上进行了大量的开发工作,增加了67个代码仓库,开发代码近80万行,开发支持400余条IR用户需求,240余条安全基线需求,200余个Redfish接口。经过架构优化,InBry管理固件平台底层兼容多款BMC管理芯片,支持OpenPower、x86、ARM等处理器平台,兼容各类加速芯片和部件,全面支持通用服务器、AI服务器、存储服务器、边缘服务器等应用形态,能够适应大规模数据中心用户的服务器产品快速迭代需要,满足资产信息管理、故障预警、远程管理和批量自动部署等需求,为互联网、金融、通信等行业客户提供更先进、更开放、更高效的BMC管理能力。
结语
在软硬协同发展思想的推动下,开源软件和开放硬件正加快融合,开放开源技术将深刻改变全球IT产业分工协作模式。未来,越来越多的跨社区合作将进一步打破创新的边界,以更加开放的数据中心为业务创新赋予无限可能。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。