在昨天结束的GTCChina 2017大会上,NVIDIA联合创始人兼CEO黄仁勋先生充满激情地:“我们都处于计算机的产业,目前遇到了千载难逢的机会,因为整个计算机产业的基础正在被颠覆。计算机的制造方式被彻底改变了,软件将不再完全依靠于人类的写码能力。”
在这场AI开发者的年度盛会上,百度Apollo的高精地图、华为GPU加速的智能分析解决方案、中科曙光的人工智能一体化应用服务平台等,无一不诉说着人工智能时代,无论是硬件还是软件,我们都迎来了令人兴奋的机会。
我们在曙光公司的展台前还看到了浸没式液冷方案,据介绍这是一款专门为深度学习提供相匹配散热能力的高密度高性能计算机,可以使单机柜密度达到100kW。除了曙光将液冷应用在AI领域,今年五月在大连造船厂下水的第一艘国产航母装备的相控阵雷达也应用了全液冷系统,以便配备更多的收发单元和扩大阵列面积。
这些看似离我们大众生活过于遥远的液冷黑科技,正在被各大知名企业引入并在一些专业领域进行应用。就在前不久,曙光公司在液冷服务器大规模应用发布会上向华中科技大学交付了中国首套商用浸没式液冷服务器(参考上图),用于华中科技大学自主研发的信息存储系统、并行分布式计算系统,搭建健康大数据平台。随后,联想在上周也发布了中国第一套超大规模温水水冷超算集群。可见,液冷解决方案的初衷都是实现超高密度部署,提高计算能力。
液冷?水冷?是一回事儿吗?
对液冷技术比较关注的朋友大概已经捕捉到些许不同,液冷服务器、水冷超算集群,这都是什么样的存在呢?我们今天就带着这一问题一探究竟。
液冷,是指通过液体来替代空气,把CPU、内存条、芯片组、扩展卡等器件在运行时所产生的热量带走。根据目前技术研究的进程,将液冷分类为了水冷和冷媒冷却,可用冷媒包括水、矿物油、电子氟化液等。按照冷却原理,又将液冷分为了冷板式液冷(间接式冷却)和浸没式液冷(直接式冷却)两种系统模式。
从曙光和联想发布的两款产品来看,都属于间接式冷却即冷板式液冷服务器,百度在2017百度AI开发者大会上也展示了在GPU上加了冷板散热器的X-Man 2.0,这些冷媒都采用了水。
我们从图片上可以看出,三款服务器都是将水从特制的快速接口注入,经过密闭的送水管路,将CPU的热量带走后,通过回水管路流出。其差别在于,曙光和百度所使用的管路为软管,而联想则采用了铜管,相比铜管软管易于弯折,布局更自由。另外曙光第二代冷板式液冷服务器,液体冷却系统囊括了内存条。
所以,液冷可能是水冷,也可能是其他冷媒,需要根据应用场景的可靠性等级要求而定;但水冷一定是液冷技术范畴内的。
温水水冷又是什么GUI?
在液体冷却技术这一领域,又有许多细分的技术,例如浸没式液冷有相变和非相变流派之分,又例如冷板式液冷提出的液冷统称和温水水冷。明明是利用水来做冷却的,为什么又要用温水?针对这一问题,我们采访了曙光冷板式液冷服务器研发总监崔新涛。崔总深思的瞬间仿佛要回忆起最初的设计思路。
他说:“根据热力学第二定律,热量从高温热能源到低温热能源是可以自由流动的,无需外力做功。服务器计算核心CPU是主要的发热源,其正常工作一般要求核心温度不高于80℃,而室外温度是远远低于80℃的。那么根据热力学第二定律,CPU所发出的热量是可以在没有外加动力的情况下自发传导到室外的。那么从理论上讲,我们可以把传统风冷系统里面的风扇、空调、压缩机这些耗电大户全部去掉,并用液体代替换热系数差的空气,作为新的导热媒介,这就是液冷技术的基本方法论。”
那么温水又是什么概念呢?崔总继续解释道:“温水,其实就是我们所说的30-45℃温度范围的水。我们在2013年开发第一台,也是国内第一台冷板式液冷高性能服务器的时候,为了去掉压缩机实现自然冷却,通过大量实验数据分析将进水的温度定为35-45℃范围之间,出水温度则在45-55℃左右,这样服务器的水冷循环系统将实现全年自然冷却,从而大幅降低数据中心PUE值。我们在2015年部署的液冷高性能计算集群是中科院大气所的‘地球系统数值模拟装置原型系统’,该系统全部使用冷板式液冷服务器,共计1375个计算节点,安全运行到现在,其PUE值始终保持在1.17左右。另一个案例是中国最大的电网仿真高性能计算平台,混合采用了风冷服务器和冷板式液冷服务器,共计750个计算节点,运行半年来的PUE值也很好地保持在了1.27左右。可见,采用常温水为计算机核心发热部件CPU进行冷却,摒弃压缩机这一解决方案在减少总体拥有成本的同时,显著增加了数据中心的能源效率,为实现高密度部署计算能力奠定了基础。”
进水侧水温是不是越高越好
那么大家就会又有疑问,基于此方法论,进水温度是否可以设定高于45℃?是不是水温越高越好?针对这一问题,崔总的解释更为严谨:“在已经实现了全年自然冷却,达到散热效果、节能效果的情况下,再去提高进水温度意义不大。我们现在室内侧进水温度极限值可以做到45℃,即便是进水温度再提高,能源使用效率提升空间也不大,但液冷系统可靠性开始降低,同时芯片散热效果也会变差,降低计算机系统的可靠性,得不偿失。”
液冷技术逐渐从幕后走向前台,冷板式液冷技术更是比较成熟,已经开始了产业化进程。经过高性能计算市场的积累,希望在液冷技术方面经验丰富的曙光能够继续带动液冷产业的发展。仅仅靠一家之力还远远不够,这就需要更多的厂家在液冷技术以及配套原材料研发方面投入更多的精力,形成产业链,完善了生态才能够持续快速发展。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。