即使是不关注互联网的普通大众,这些天也会被ChatGPT刷屏。
ChatGPT针对人们的问题,给出了令人惊艳的回答,而不是以往的“天书”。
通过学习大量现成文本和对话集合,ChatGPT能够像人类那样即时对话,流畅地回答各种问题,包括回答历史问题,到写故事,甚至是撰写商业计划书和行业分析等。
而这一效果的实现离不开人工智能技术的发展,特别是强大算力的支持。
ChatGPT是生成式AI的一种形式,其背后的支撑是人工智能大模型。而大模型参数量、数据量高度扩张,算力需求陡增。
宁畅副总裁兼CTO赵雷告诉记者,ChatGPT的火爆其实凸显了算力产业的难题——算力密度和效率,以及算力成本。
算力密度和效率是个大问题
在算力方面,GPT-3.5总算力消耗约3640PF-days(即每秒一千万亿次计算,运行3640个整日)。这仅仅指的是ChatGPT在训练阶段消耗的算力。
赵雷表示,AI模型训练通常意义上来说要比推理高一个数量级的算力,也就是说,至少是10倍算力。对于训练来说,一般是周级或者是月级响应;而推理的话基本上是实时或者半实时的,它的响应是秒级的。
赵雷说,ChatGPT所需要的算力是巨大的,而实现理想人工智能的算力需求至少需要现在100-1000倍的算力。(如ChatGPT至少需要现在100倍算力,元宇宙需要现在1000倍的算力。)
宁畅系列人工智能服务器
目前,我国总体算力不足,而且算力分布不平衡,需要进行算力协调,而这需要云计算技术来解决。
赵雷表示,其实我们需要借助液冷或者深度定制方式提高算力效率。算力的应用类型越窄,它的效率就会越高。越通用化,它的效率就越低。
算力成本不容忽视
效率问题与成本往往密切相关,虽然每单位算力的单价下降了,但是服务器的成本,包括服务器的平均售价在过去3年一直是上涨的。
根据估算,GPT-3训练成本约为140万美元;对于一些更大的LLM模型,训练成本约达到1120万美元。
按近期在国内落地的某数据中心为参照物,算力500P耗资30.2亿落成,若要支持ChatGPT的运行,需要7到8个这样数据中心支撑,基础设施投入需以百亿计。
在算力的成倍甚至是指数级增长下,服务器耗电量和电费也将是乘倍增长。如何通过更高效的节能方式来解锁算力,释放功耗?
宁畅基于现有行业节能痛点,提供传统风冷、冷板式液冷和浸没液冷等多场景的散热方式。其冷板式液冷可实现部件级精确制冷,使能效提升40%,以一个总负载10MW的机房为例,宁畅冷板液冷方案可助力用户每年节省电费1580万元,而其最新推出的业界首款搭载第四代英特尔至强可拓展处理器的浸没液冷服务器,其PUE最低可达1.05。
此外,宁畅通过软硬件的调优,在单位成本上实现降本增效。根据国际测试TPCx-AI成绩显示,宁畅单位算力仅用94美元,相比平均300美元的算力成本,降低了68%的硬件成本。
ChatGPT带来的机会
ChatGPT在应用时需要大算力的服务器支持,ChatGPT的持续爆火也为AIGC带来全新增量,行业对AI模型训练所需要的算力支持提出了更高要求,也为服务器厂商带来更多市场空间和发展机会。
对于AI公司来说,或者开发AI应用的公司来说,时间成本高,客户要在时间成本和硬件投资上做一个取舍和平衡。
我们可以看到,对于未来的服务器的产品的需求,将更加理性。对于产品方案,也更加务实,同时对于IT基础设施的生态要求需要更加包容。
宁畅冷静计算战略发布会现场图
基于当前的业务场景和背景的这种需求,宁畅将更加着眼于满足客户高质量算力的交付目标,通过自身的技术能力和产品方案的实现,为客户找到算力最优解,实现需求与能力的双平衡。
例如宁畅X620 G50是兼备训练与推理功能的全能型GPU服务器,既支持高强度计算,满足机器学习、AI推理、云计算等众多应用场景需求,同时又可实现绿色节能,符合当前ChatGPT等模型对算力/服务器的需求。
宁畅X620 G50
赵雷说,服务器的研发设计生产制造交付是以年计的,宁畅选了了AI和液冷两个赛道,匹配市场发展需求。未来两到三年里,宁畅坚定不移地走定制化市场,以用户为中心,拓展人工智能赛道。
未来算力展望
对于未来的算力需求,更多的客户将会面临两个方面的挑战。一方面要考虑算力的足量,同时还要考虑绿色节能和可持续性发展,既要考虑当前业务的导向,政策的导向,同时不断去把创新优化的业务场景导入进来,实现增量市场的可持续性。
在这一过程中,企业追求强大算力就会面临高功耗和高能耗等问题,如何用更有效的方式在满足算力需要的情况下,解锁更高算力,释放更多功耗。宁畅给出的答案是定制化的算力解决方案和液冷。
定制化的算力解决可量身定制用户需求,实现从需求梳理、机房部署到智能运维的全面定制化,避免不必要的浪费,此外,使用冷板式液冷方案,可通过风液CDU等设备,在不改变传统风冷机房部署的情况,实现向液冷过度。该方案能使能效提升40%。而宁畅近期推出的浸没式液冷服务器,更能将PUE降低至1.05及以下。
总体来说,ChatGPT的快速渗透、落地应用,也将大幅提振算力需求,这将刺激整个算力产业链,包括数据中心、AI芯片、服务器等将迎来重要的发展机遇。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。