ZD至顶网服务器频道 03月12日 新闻消息: 作为全球最大的网络公司之一,Facebook多年来一直被迫通过设计和构建自己的数据中心服务器集设备进行创新,以弥补传统硬件厂商无法满足自己需求这一事实。Facebook对此采用了一种新颖的方法,打破传统计算组件并将这些组件重构为“模块化分解系统”,使其能够在出现更好的技术时更换硬件和软件。现在,下一代数据中心硬件已经到来,Facebook正在花时间采用它。
在加州圣克拉拉举行的Open Compute Project Summit 2017大会上,Facebook宣布开始新一轮的服务器更新,将替换掉所有旧的设备为新公布的设计腾出空间——Facebook为OCP计划贡献了4款新的服务器。
早在2012年的时候Facebook首先提出创OCP,目标是推广更高效的、环保的数据中心设计和架构。这个想法是其他超大规模网络公司不用单独行动,而是通过实施Facebook以及该组织其他成员经过验证的数据中心设计就可以了。这些设备包括一些针对广泛的不同计算用途定制的服务器,这也解释了为什么Facebook为更广泛的社区提供它新的服务器设计。
Facebook新服务器设计最重要的地方也许就是它最新的存储机柜“Bryce Canyon”了,这是社交巨头Facebook自2013年发布Open Vault存储系统以来“首个重要的、全新设计的存储机柜”,Facebook技术项目经理Arlene Murillo在一篇博客文章中这样写道。
Bryce Canyan将成为Facebook数据宗信的新主力,针对高密度图片和视频存储设计的。该系统是对上一代Honey Badger存储服务器的重大改进,具有更高存储容量、更高能源效率,并且兼容Open Rack v2标准。
Facebook的Bryce Canyon服务器(来源:Facebook)
Facebook还设计了一种新的服务器来支持其人工智能技术。“Big Basin”是Facebook“Big Sur”图形处理单元服务器的下一代,针对深度学习和神经网络而设计,具有多项在可服务性、可靠性、性能和集群管理方面的改进。因此,Big Basin“可以训练大出30%的模型,因为计算吞吐量更高且内存大小从12GB增加到16GB”。
Facebook还推出了几个小型服务器,包括“Tioga Pass”,替代了旧的“Leopard”服务器,并将用于运行社交网络上的各种计算服务。最后,Facebook推出了Yosemite V2多节点计算平台,结合新的Twin Lakes 1S服务器,用于更有针对性的计算工作负载。
Facebook在Open Compute网站上提供了每种新服务器的完整规格信息。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。