编者按
从基础设施的角度看,就是希望算力基础设施也能像电力基础设施一样,通过更大规模的人力物力投入,实现算力基础设施的领先。
但算力基础设施,和我们的能源、电力、交通等传统基础设施相比,仍存在许多风险和挑战。今天这篇文章,我们抛砖引玉。
本章节内容节选自《2022-2023全球计算力指数评估报告》,由IDC、浪潮信息、清华全球产业院。内容有调整。
通过数字技术推动业务变革,进而实现数字化转型,已经成为传统企业发展的必由之路。随着数字技术的不断进步和发展,以及数据量的爆发性增长,强大的算力,成为了创新和突破的关键要素。
以人工智能领域为典型,人工智能大模型的发展,受算力发展的直接影响。人工智能算法和技术被应用于各种领域和行业(AI+),如自动驾驶汽车、医疗诊断、金融预测等。
算力的发展不仅激发数字技术的创新和突破,也推动了数字技术在各行各业的广泛应用与深度融合,为各行业能够实现科技创新提供了重要支撑。
在数字经济时代,算力是国家经济增长的关键驱动力之一。根据上图可以看到,算力的提高对一国经济增长的拉动效应非常显著,且随着计算力指数的增加,提升效应会越来越明显。
评估结果显示,十五个样本国家的计算力指数平均每提高1点,国家的数字经济和GDP将分别增长3.6‰和1.7‰。
总之,算力基础设施支撑并加速新质生产力和千行百业的发展,算力基础设施是整个国民经济发展的重中之重。
虽然算力和我们的铁路、公路、水利、电力等行业一样,被称为基础设施。但算力是新型基础设施,和这些传统基础设施相比,仍存在非常大的差异性。而这些差异性,也基本上就是算力基础设施存在的风险和挑战。
本章节,我们就算力基础设施的风险和挑战进行分析,无法面面俱到,仅限抛砖引玉。关于算力基础设施的风险和挑战,希望能够得到全行业的重视。全行业一起努力,能够构建符合技术和市场规律,并且能够支撑国家数字经济快速发展的新型算力基础设施。
如果算力可以公平且标准化的度量,那么算力就可以像电力一样,大规模生产和消费。但实际的情况,远比想象的要复杂的多。
我们通过两个案例进行分析。
协处理器,CPU内部也集成协处理器,如Intel AVX/AMX指令协处理器。如果是传统的控制类任务,就不需要AVX/AMX协处理器。但如果是视频、图像等任务,就需要AVX;如果是AI类处理,就需要AMX。反过来说,如果是控制类的任务,AVX/AMX协处理器对我来说没有价值,如果仍需要为这些协处理器的算力付费,则是相对不公平的。客户会优选没有AVX、AMX等协处理器的CPU处理器。
第二个案例,CPU vs 专用处理器。如果同样的1000TOPS算力(折合成TOPS统一单位),CPU算力和专用处理器的算力哪个更好?一般来说,CPU算力更好,因为CPU算力更加通用,可以用在几乎所有场景,并且对软件和软件开发者的要求更低。而专用处理器,仅能支持某个特定场景,甚至某个特定算法算力,对其他的业务场景来说,价值几乎为零。这样的话,这两种算力,能卖相同的价格吗?我们假设CPU 1000TOPS算力价格为1000元/月,那么,专用处理器 1000TOPS算力的价格10块钱,都不一定能找到合适的客户。
算力为什么难以标准化?本质的原因在于计算引擎和业务算法的耦合性。在加减乘数等基本指令的通用CPU基础上,做的任何优化,其实都是面向某些特定规律的计算或算法优化。这些加速计算引擎只有找到匹配的业务算法,才能发挥价值;反过来,如果没有匹配的业务算法,计算引擎的价值就很低很低。
等等。
总结一下,我们认为,计算是一件非常复杂的事情,算力(也即计算的能力)的标准化,几乎是一个伪命题。
从上图可以看到,从2012年深度学习的兴起,算力需求逐渐增强,跳脱摩尔定律约束,需要GPU加速处理器,以及Scale out的集群计算。这一时期,算力需求每3.4个月翻倍。从2018年开始,随着大模型的流行,算力需求进一步加速,每2个月就会翻倍。与此同时,Scale Out也越来越难以为继,集群规模从千卡到万卡,再到十万卡。集群规模的不断扩大,使得AI计算的成本越来越成为天文数字。
例如,微软与OpenAI制定的新一代AI算力芯片和基础设施项目星际之门,预计耗资1000亿美元;目标参数规模为1000万亿,是GPT4的10000倍。
业务需求和算力基础设施的差距成指数级增长,两者之间的矛盾进一步加剧。要想根本性的解决问题,一方面需要单节点的计算架构的创新(Scale Up创新),也需要更高效的集群网络解决方案,进一步支持更大规模的集群计算(Scale Out创新)。
业务。新的技术、新的场景、新的业务落地,有非常大的难度。特别是跟硬件关联度非常大,受硬件物理条件的约束的场景,如自动驾驶智能汽车、XR元宇宙、人形机器人等。如何实现软硬件深度协同和融合的综合算力技术体系,受到很多现实的约束,实现的难度巨大,需要更多的创新驱动。
总之,从算力芯片,到硬件以及相关软件和开发框架,软硬件体系极度庞大和复杂,技术门槛非常高。
TSMC 3nm工艺已经量产,2nm、1nm也都在未来几年的路线图中。并且,TSMC已经开始在攻关0.1nm工艺,半导体工艺即将进入亚纳米(埃米)时代。在存储领域,近些年来还兴起了3D封装技术,使得集成电路从二维进入三维。在封装领域,Chiplet先进封装机制,把多个芯片裸DIE集成到一起,从3D到4D,都进一步增强了单位面积的晶体管集成度。
随着单芯片所能容纳的晶体管数量逐渐增加,计算的架构也越来越复杂,逐渐从CPU同构、CPU+GPU的异构,走向了CPU+GPU+DSAs的异构融合。2023年9月15日,在湖南长沙的世界计算大会上,《异构融合计算技术白皮书》由工信部电子五所发布(关注软硬件融合公众号,回复“白皮书”,可下载此白皮书)。
算力芯片的设计模式,已经从“硬件定义软件”转向“软件定义硬件”。传统的算力芯片设计模式,是先有芯片,然后是驱动和开发框架,再然后是基于框架的软件任务。但这种方式,每家芯片公司都是一个独立的架构,独立的生态。一方面,构建生态的门槛非常高,另一方面,这种方式对客户非常不友好。特别是在计算的主流方式从单机走向大规模集群计算的当下,客户既倾向于统一的计算平台,又不想被特定的厂家绑定。软件定义硬件的方式,是客户和芯片供应商最大的公约数。
这里就计算的形态再做进一步展开。随着大模型的发展,计算需求的规模越来越大,和单颗芯片所能提供的性能差距的数量级,也在不断增加。千卡集群、万卡集群,甚至十万卡、百万卡集群也已经在路上。超大规模集群计算,甚至跨云边端的融合计算,已经成为了计算的主流形态。
摩尔定律告诉我们,每18-24个月芯片的性能就会翻倍。NVIDIA黄仁勋的黄氏定律告诉我们,计算性能会每一年翻一倍。这两个定律意味着,算力芯片的迭代周期是1-2年一代。
软件的迭代就更快了,软件开发更是讲究“小步快跑”,通常是2-3个月一个小迭代,一年一个大迭代,不然就赶不上业务快速发展的需要。
传统基础设施,技术更新换代较慢,传统基础设施的生命周期很长,通常在50年以上,有的甚至100年以上。
而受算力各项技术的快速更新迭代,特别是摩尔定律和黄氏定律的影响,算力基础设施的生命周期通常4-5年。因为,4-5年时间之后,硬件的可靠性会越来越差,并且计算的各项支出越来越不够经济,必须要更换更加先进的计算设备和相应的软硬件技术栈。
国产算力芯片最大的困境在于生态:构建一个新的计算生态,门槛非常高,千亿级投入都不一定成功。但行业除了NVIDIA CUDA生态之外,还有一个更加强大的生态,即全球几乎所有互联网公司(客户)都支持的开源软件生态。基于开源软件,实现开源软件定义的开放硬件,形成一个更加开放更加强大的开源的技术(栈)生态。
国家多个部委发文,说要构建全国一体化算力网。但一体化算力网,并不意味着是一家公司独大,而是意味着算力的充分利用和价值的最大化发挥。我们认为,未来也是类似公有云的竞争态势,最终形成5家左右具有全国甚至全球影响力的算力网公司,以及10家以上具有行业和领域特色的专业算力网公司。
业务客户,可以从自建的私有云、公有云以及算力网获得优质而低成本的且“无处不在,随时随地可获取”的算力,服务好自身的业务。
只有开放,才能最大限度的发挥各自的创造力和和市场竞争价值,才能最大限度的实现技术的快速进步,才能实现算力芯片和算力产业链的独立自主,甚至全球领先。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。