未来的更新,只需点击添加新单位即可——至少目标如此……
欧洲首个百亿亿级超级计算系统将以由集装箱单元组成的模块化数据中心形式交付,以便未来能更轻松地更新或更换个别模块。抢先体验计划也已经针对后续计划登陆系统的潜在应用程序开放。
概念图所示,为即将推出的模块化数据中心场景。
Jupiter项目的全称为“共同计划先锋百亿亿次创新和变革研究”,计划将在2024年秋季正式投入运行。
该系统由欧洲高性能计算共同计划(EuroHPC JU)采购,将成为欧洲首个百亿亿次级超算系统,每秒可执行超百亿亿次浮点运算。外界普遍估计,这一数字可能是指双精度浮点运算或者是主流关注的“AI flops”。
负责该项目的于利希超级计算中心(JSC)表示,他们正采取一种新颖方法在数据中心内安置Jupiter基础设施。根据JSC的介绍,整个数据中心将由约50个集装箱模块组成,占地面积超过2300平方米,约相当于半个足球场大小。转换为英制单位,其面积接近2.5万平方英尺。
这些集装箱模块计划分为20个IT模块、15个供电模块和10个后勤模块,其中后勤模块将具体提供数据中心的主厅、车间和仓储空间。
在交付之前,容纳Jupiter基础设施的机架将与冷却、供电、网络及布线设计一道,在生产车间内被直接集成至各集装箱当中。预计这将显著加快安装速度,并降低硬件现场部署之后发生故障的风险。
法国IT巨头Atos旗下负责监督施工的子公司Eviden表示,这种集装箱作业的优点包括显著缩短规划与安装时间,以及降低施工与运营成本等。
在传统数据中心架构当中,拆除陈旧系统并升级数据中心以支持新技术往往需要几周甚至几个月的时间。而Jupiter系统允许JSC快速更换各个模块,借此高效添加硬件更新。Eviden公司指出,供电子系统与后勤区域也可按单元更换。
最初公布Jupiter项目时,EuroHPC表示将采用与Juwels超级计算机相同的动态模块化架构。Juwels就曾在2020年通过接入GPU增强模块实现了性能升级。
Eviden公司宣称,Jupiter项目的交付周期缩短一半、控制在一年之内,而成本也“cut by 3”,我们猜测是指减少至三分之一。在去年公布合同时,该项目的总体预估成本为2.73亿欧元(约合2.9亿美元)。
JSC主任Thomas Lippert博士强调,Jupiter“可能将成为世界上最强大的AI超级计算机”。
他指出,“然而,巨大的算力也将带来对电力的可观需求。迄今为止,德国还没有哪处科学数据中心能够支持这样的供电规模。很高兴数据中心模块化方案能够快速建立起供应基础设施,也让利用冷却过程中产生的热能为于利希园区供暖成为了可能。”
Eviden公司高性能计算、AI与量子全球负责人Emmanuel Le Roux在一份声明中指出,“我们很荣幸能够领导Jupiter制造联盟并提供用于系统托管的数据中心,也很高兴能在欧洲的百亿亿次计算发展旅程中贡献力量。”
为了配合Jupiter项目上线,JSC还专门启动了Jupiter研究与早期访问计划(JUREAP),供外部客户探索这套全新百亿亿次系统的潜在用例。
JSC表示,JUREAP计划将从可扩展性与性能评估阶段(SPEP)起步。在此期间,他们将与其他研究人员及领域科学家合作,共同评估各类应用在百亿亿级规模下运行模拟的技术潜力。
SPEP已经于1月15日对外开放,对申请者本身并无任何特别要求,但必须论证所申请的用例拥有大规模科学应用潜力。
JSC表示,如果希望后续参与JUREAP计划并利用Jupiter系统运行科学用例,则研究人员必须先期参加SPEP。
好文章,需要你的鼓励
惠普企业(HPE)发布搭载英伟达Blackwell架构GPU的新服务器,抢占AI技术需求激增市场。IDC预测,搭载GPU的服务器年增长率将达46.7%,占总市场价值近50%。2025年服务器市场预计增长39.9%至2839亿美元。英伟达向微软等大型云服务商大量供应Blackwell GPU,每周部署约7.2万块,可能影响HPE服务器交付时间。HPE在全球服务器市场占13%份额。受美国出口限制影响,国际客户可能面临额外限制。新服务器将于2025年9月2日开始全球发货。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
安全专业协会ISACA面向全球近20万名认证安全专业人员推出AI安全管理高级认证(AAISM)。研究显示61%的安全专业人员担心生成式AI被威胁行为者利用。该认证涵盖AI治理与项目管理、风险管理、技术与控制三个领域,帮助网络安全专业人员掌握AI安全实施、政策制定和风险管控。申请者需持有CISM或CISSP认证。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。