如今的半导体市场处于变革期,不论是供给侧还是需求侧,芯片的多元与异构已经成为趋势。截至2021年5月,国内AI芯片行业的企业数量就已超过3000家。同时,全球科技巨头出于成本、效率、业务拓展等方面的种种考虑,也纷纷自研芯片。
同时,大数据、人工智能、边缘计算、物联网等多样化技术平台及业务应用,带来大量SoC、CPU、AIPU等各种类型、各种架构芯片的部署。
在这样的情况下,“一云多芯”已经逐渐成为未来云计算平台的一种“刚需”,是未来云计算平台的核心能力之一,其不仅是是芯与云的融合,更是平台与生态的协同。
浪潮数据云计算技术总监亓开元表示,“一云多芯”是一个全球性的趋势,特别是在国内的产业链进行重构的大背景下,“一云多芯”的意义和必要性更加突出。
“一云多芯”成为标配
浪潮数据云计算方案总监刘健告诉记者,IT技术的发展是需求驱动,中国特色的需求和云时代的技术趋势相叠加,构建了一个巨大的“一云多芯”场景。面向多元计算,“一云多芯”是基础能力。
“一云多芯”可满足用户算力多样化需求,并且可有效规避算力孤岛,逐步实现从算力的并存到算力的统一。
与此同时,“一云多芯”可有效降低供应链风险。“一云多芯”的出现,使得客户可以最大程度的降低技术路线的选择风险,极大提升业务稳定性以及业务改造的灵活性。
浪潮数据董事长张东说,用户始终面临一个供应链的持续安全问题,当他在选择技术路线的时候,应该采用“一云多芯”的视角,避免被某一厂商或者架构所锁定。
落地挑战不容忽视
虽然“一云多芯”具有诸多好处,但是在实际落地中却存在很多挑战。
比如理念的转变。在当前的云时代,开放计算是大势所趋,但是芯片指令集、操作系统架构上的差异化依然制约着架构的横向协同,比如一个应用需要同时适配多个指令集和操作系统的问题仍然很严重。
标准的缺失。各厂商因技术能力差别导致理解和落地模式均有所不同,比如部分厂商将纳管多个独立的不同芯片架构资源池的这种模式也包装成“一云多芯”,由于无法实现真正的互联互通,对业务的连续性造成很大的风险。
生态的离散化。当芯片厂商尝试构建生态的时候,孤岛现象便出现了。众多生态并行存在且互不兼容,难以形成产业合力,同时又给行业客户在使用环节带来困扰。
浪潮云海的和而不同
其实回到问题本质,一云多芯的最终目标是支撑用户业务在不同架构处理器之间的低成本切换或者自由切换。
现在市面上很多企业也在谈“一云多芯”,张东认为,不同厂商的“一云多芯”不太一样,这取决于对“芯”的理解。“一云多芯”的技术理念是让不同架构的芯片能够共存于一个云平台上面。浪潮云海的角度是,“一云多芯”应该成为业界共同遵守的规范,这包括芯片厂商、整机厂商、云平台、应用厂商、客户等,一起按照一套标准规范进行生态的构建。
其实,浪潮云海从诞生的那一刻就确定了自身的理念——开放,这一点对于“一云多芯”非常重要。要知道,浪潮云海支持的芯片种类一直是业界最多的。
“你的云和我的云是存在竞争关系的,但是我对上下游都是开放的。光靠云厂商,只是解决了兼容性问题,真正实现不同平台的顺畅迁移或者连续性,这需要规范和标准。浪潮云海强调生态合作的理由也基于此。”张东说。
刘健补充说,浪潮一直打造开放生态,拥有全面的整机系统,以及广泛的生态系统。“这个生态不只是包括合作伙伴,还包括行业的头部客户。”
浪潮云海遵从“以应用为导向、以系统为核心”的设计理念,秉承“分层解耦、开放标准”的“一云多芯”建设原则,按照“有-好-优”三步走来实现一云多芯的中长期目标。
亓开元介绍说,第一阶段的核心在于解决“有”的问题,以云为入口,通过云操作系统实现异构处理器的统一管理;第二阶段解决“好”的问题,进一步实现应用的低成本跨架构切换。通过资源层、平台层和应用层的“分层解耦”设计,实现架构升级;第三阶段是解决“优”的问题,共同推动应用与云基础设施的一云多芯相结合,打造垂直一体化方案,实现应用层面的跨架构无感知切换。在标准和测评方面,联合专业软件测评机构及产业链上下游生态,形成一云多芯行业标准。
目前,浪潮云海OS完成全球首个面向一云多芯场景的SPEC Cloud基准测试。在保持技术引领的基础上,浪潮云海也在不断推动“一云多芯”在政府、金融、能源、交通等行业的落地,帮助客户构建“一云多芯”行业云。
例如浪潮云海助力某省构建全国最大规模“一云多芯”云平台,覆盖近2000台、三种架构处理器的服务器,成为国内规模最大、芯片种类最多的省级政务云平台。全面集成基础软硬件、云平台、安全系统、运维管理系统、应用系统,形成大规模、统一纳管、统一监控、统一运维的安全可信云计算平台,累计完成104个业务系统迁移,以及4个公共应用系统的对接。
刘健说,虽然“一云多芯”会造成企业的软硬件建设和运维成本增加,但是供应链的安全更为重要。“随着生态越来越完善,部署规模越来越大,客户的各种各样的成本就会降下来。”
好文章,需要你的鼓励
Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。
上海AI实验室联合多家顶尖机构开发出全球首个科学推理大模型SciReasoner,该模型在2060亿科学数据上训练,支持103个科学任务,能够像科学家一样进行逻辑推理并展示思考过程。它实现了化学、生物学、材料科学等多领域知识整合,在分子设计、性质预测、文献分析等方面表现出色,为科学研究提供了强大的AI助手工具。
英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。
南洋理工大学研究团队开发出SHINE方法,这是一种无需额外训练就能实现高质量图像合成的新技术。该方法通过巧妙引导现有AI模型的潜能,能够在复杂光影条件下完美合成图像,包括准确的阴影生成和水面倒影效果。研究团队还创建了ComplexCompo基准测试集,验证了SHINE在各种挑战性场景中的卓越性能,为图像编辑技术的发展开辟了新方向。