美国橡树岭国家实验室科学武器库中最新的一台仪器,是一台巨型液体冷却超级计算机,超过八分之一英亩被誉为世界上最快的。
这台名为Summit的系统由IBM打造,耗资2亿美元,将支持从医学到天体物理等多个领域的研究项目。
Summit将为美国橡树岭国家实验室的科学家们提供200 petaflops的处理能力。该系统可以保持这样高速的同时,基于超级计算项目常用的64位浮点预算来处理大型数学值。据报道,对于简单的操作来说它的性能表现甚至会更高。
所有这些计算能力都是来自于构成Summit主干的4608台互联服务器。每个节点配备有IBM提供的2个22核心CPU和6个Nvidia的Tesla V100图形卡。另外该系统该选用了Nvidia的芯片,因为这些芯片针对运行人工智能模型进行了优化。
Summit被视为第一台基于AI打造的超级计算机。美国橡树岭国家实验室计划将人工智能用于未来一系列项目中,包括一个旨在更好了解遗传因素如何影响医疗条件的项目。
以这样性能水平开展研究所需的支持基础设施几乎与Summit的核心规格一样令人印象深刻。根据该实验室的说法,管道网络每分钟要在系统中循环4000加仑的水,以保持服务器内部冷却。众多节点也是通过不少于185英里的光缆连接的。
该实验室预计Summit将在明年初全面投入使用,该系统将为实验室提供是现有Titan超级计算机8倍的处理能力,以及比迄今为止世界最高速度高出60%的处理能力。
不过虽然自身令人印象深刻,但Summit也是计算未来更广阔愿景的一部分。美国政府正在寻求构建性能超过1 exaflop的机器,目标是最迟在2023年推出。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。