扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
直到前不久,在全球高性能计算 (HPC) 市场上仍难觅 Sun 的踪影。 回顾 2001 年,我们曾一度忽略了 HPC 中的“P”(性能)- 需要高性能的客户不再喜欢使用少量的大型系统(Sun 的传统强项产品),而是青睐于使用很多的,群集的小型系统。而在 2001 年,我们并未对此多加关注。
但在过去五年中,我们进行了大量的投入来改变这种状况。如今Galaxy 和 Niagara 是Sun公司发展最快的产品系列。OpenSolaris 也开始在小型系统上造成一股使用的潮流,另外,我们还在编译器优化和语言的创新方面成倍的投入努力。这一切均致力于取得极致的效率/性能。可以说现在是重新进入市场的大好良机。
从一开始,我们就考察我们所能找到的最大型 HPC 部署所面临的问题和挑战,而不是模仿竞争对手产品。性能当然是优先考虑的一个方面, 但仅有性能是不够的 - 如果您认为群集就是一个机柜中有三台 PC,则面临的问题可能不是您所期盼的。
要在三百或四百台计算机中构建群集将面临着不同的挑战: 散热、提供足够的电能、管理软件版本或硬件故障等等,不胜枚举。要想达到三千或四千个节点,那从重量(地面承载力)到光纤弯曲半径和批量的软件部署的挑战,甚至包括房间内数据的传输速度这些因素都突然变得至关重要。正因为如此,我们才决定集中力量发展极高端产品 - 我们认为这个产品将来会成为主流产品(因为这种现象在这个行业非常普遍)。
这几天,我读到评论家和分析家们的大量反馈信息,我想回应其中一个观点 - 是那些深信高端超级计算市场的规模小、变幻莫测且利润极小的人所持的观点。
高端超级计算市场规模小、变幻莫测且利润极小 - 他们的看法完全正确。
如同自由软件业一样(在此行业中,没有人期望能通过向开源社区出售产品能致富),没有人期望企业能通过向使用最尖端 HPC 技术最多的学者和研究人员出售产品而能获利。
但这不是关键所在。
学术性超级计算社区(又出现这个词)为全球企业计算设定了发展步调,这些企业利用 HPC 进行了一系列现实世界的挑战,从病毒、疾病、药物开发、客户采购模式分析、资本市场交易、能源开发、动态资源管理等应有尽有,它是市场中发展最快的板块。这证明了学术研究的成果终将走向大众。业界仰仗学术界和研究机构来了解可实现突破性规模和性能的创新(问问这一理念的提出者 Linus,他还未接受我的晚餐邀请...我希望不是因为我的厨艺。)
我们推出的新产品
本周初,我们在德国的德累斯顿推出了 Constellation 系统 - 这是一组通用的基本构件块,任何客户,无论是教育界还是商界,可以用其构建从几个 Teraflop 的系统到 2个 Petaflop 的系统。在此大型发布会中,我们还推出了多个构件组件 – 其中值得一提的是...
我们致力于在 HPC 社区提升 OpenSolaris,将 Linux 一样成为适于 Petaflop 级别系统每秒可执行一千万亿次指令)的可靠、灵活平台。OpenSolaris 的主要吸引点是什么?支持超大内存配置、集成虚拟化及动态追踪 DTrace 和 超大ZFS 文件系统可能是其最大亮点,但对磐石(ROCKS)芯片的支持,标明免费/开放源码的价格标签,并且可在任何服务器上运行的事实也大大提升了其吸引力。Solaris 团队把在HPC 方面获得成功视为极重要的任务,也是我们与合作伙伴们的主要投资点。(但绝不会减少我们对 Linux 的关注 - 如果可将双方的许可证方式结合,还会加大关注力度。)
其次,我们还推出了能集成 48 个刀片服务器的机架,该机架具有标准 I/O,支持在同一机架中容纳各种类型的主流微处理器,无论是 AMD、Niagara 还是 Intel 的。请参见左边的图片。我们还推出了一种新式刀片服务器 - Pegasus,专门设计用于 HPC 网格。不附安全带,无任何冗余,只有原始的计算性能。
第三且最为重要的是,我们推出了 Magnum计划(如右图所示),这绝对是一种海量(3,456 个端口 - 单击此处可了解该数据的含义)Infiniband (IB) 交换机,旨在缓解绝大多数超级计算设备在布线、重量(实际上减少了三吨)、成本和时间延迟梦魇方面所承受的巨大压力。它是由首席架构师 Andy Bechtolsheim 领导的卓越系统团队首创的,可满足大量计算的需要,大大降低了复杂性和成本。当今市场上竞争友商的最大的 IB 交换机有 288 个端口,要与 Magnum 相抗衡,您需要大量这样的交换机(支持节点、布线和复杂性随着数量的增多而增加)。在规模决定一切的行业中,我们作出此等创新,确实勇气可嘉。(我们预计 Magnum 在大约 420 个节点时就会出现效益的优势,因此,即使您构建的是小型网格,Magnum 也很划得来。)
我们认为,我们至少可以降低二分之一或三分之一构建超级计算机的成本和复杂性,不论是在学术或商业环境中。就是将通用系统和规模经济重新引入这个已经开始转向专有化的市场中。Constellation 系统实现了以下转变,即从第一幅图...
转变到这幅图:一个极度简单、更加轻便、易于管理/维护的 Petaflops 规模的 HPC 设施。
重量减轻了三吨,构建成本缩减了三倍,精简了布线且大大简化了管理。它的最高性能可达到两个 Petaflop,我相信这种超级性能会让棋王鲍比费雪也难以招架...
对我们在德克萨斯高级计算中心 (TACC) 赢得订单消息感兴趣的读者, 下面是相关资料:
TFLOP:大约 500 TERAFLOP
Magnum:2台(每台有 2000 个以上的 4x IB 端口,可扩展 6,912 个端口
Thumper:72 台(1.728 PB)
元数据存储器:STK6450 RAID (9.3 TB)
磁带存储器:STK SL8500
存储/数据管理:SAM/QFS
机架:82
IB NEM:328
Pegasus 刀片:3936
总内存:123 TB
计算内核数:62,976
机架总数:94
占地面积:2,037 平方英尺
大约功率:2.4 兆瓦
IB 电缆长度:约 14 公里
形象地说,其计算设施将大约相当于半个 NBA 篮球场大小。其实并不小 - 实际上是全球最大的。
如对我们选择 3,456 个端口感到好奇...
____________________________
以下是转发的邮件:
发件人:Andreas Bechtolsheim
日期:2007 年 6 月 28 日,PDT 时间 6:58:59 AM
收件人:Jonathan Schwartz
抄送:John Fowler
主题:3,456
我们采用了 5 级结构,配有由 24 个端口组成的交换元件,
最大端口数为 n*n/2*n/2 或 24*12*12 =3456。
当今市场上的其它 Infiniband 交换机为 3 级结构,
其端口数为 n*n/2 或 24*12 = 288。
所以其实现在您可以用 12 个 288 端口交换机和 288 个 24 端口叶交换机来构建一个 5 级 3456 端口交换机,
但最终将会占据 456U 机架空间或 12 个机架以及用上 6912 条电缆的 300 个接线盒。
而我们只使用一个配有 1152 条电缆的双机架,它只使用约 1/6 的空间、
1/6 的电缆和 1/6 的重量。
2007 年 6 月 28 日早晨 6:36,Jonathan Schwartz 写道:
我们为何使用 3,456 个端口?
----------------------------
最后但还是挺重要的是 - 如果想以按小时计费方式来试用超级计算机,请去浏览 network.com... 在过去的 6 个月中,我们已取得了长足进展...
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者