ZDNet至顶网服务器频道 03月11日编译:Facebook公司目前正利用英特尔打造的至强D系统芯片构建海量Web服务器,旨在为每月高达13.9亿的社交网络访问用户量提供处理资源支持。
这套OpenRack服务器设计方面代号为Yosemite,如上图所示,将面向全部从属于开放计算项目的客户提供。Facebook网站的工程师们强调称,该硬件“显著提高处理速度,并极大程度上增强了Facebook网络流量的服务器执行效率”。
每套托架能够容纳四块主板,每块主板当中包含一套至强D-1540处理器封装及其自有内存与闪存存储资源。D-1540处理器采用八计算核心(16线程)、主频为2GHz,外加两个10Gb以太网端口、PCIe以及其它IO对接机制。
每块处理器最高功耗为65瓦,整套服务器卡总功耗为90瓦,完整托架的的总功耗则为400瓦。单一机架能够容纳48套托架,这意味着其中包含有192块至强D系统芯片以及由其提供的1536个Broadwell计算核心。该Hosemite主板拥有一套每秒50Gb的多主机网络交互系统,用于通过单一以太网端口将四块CPU主板维系起来。
最重要的是,这套设计方案大大降低了Facebook工程师们的日常工作强度,每一台独立服务器从本质上讲都相当于一套配备内存、存储以及网卡的单插槽处理器,这一点原本只能通过双插槽设计来实现。单插槽设计避免了目前一直困扰着双插槽系统的、在对多线程代码进行写入及调整以实现网页向网站访问者交付时产生的全部NUMA难题。
Facebook公司工程技术副总裁Jay Parikh在加利福尼亚州圣何塞开放计算项目峰会上接受采访时指出,“我们对自己的高强度工作负载进行了一番审视,而其中最大的挑战来自NUMA均衡以及同Yosemite的协调。方案当中包含四套托盘,每个托盘中容纳着一台单插槽计算机。这是一种单托架四合一设计,其中每块主板都拥有自己的CPU、内存以及SSD,这样大家就可以将其作为一台服务器加以运行。每天都有8.9亿用户通过移动设备访问Facebook。我们必须构建相应的基础设施对这一高强度需求加以支持。”
根据我们掌握的情况,插槽数量的削减将同时降低系统的功耗水平,并有效减小每台服务器的占用空间。Parikh同时补充称,Facebook公司的数据中心“百分之百”由开放计算设备构建而成,而且在过去三年当中从能耗控制以及其它各方面实现了20亿美元的成本节约效果。
作为背景情况,Facebook与英特尔在过去几年中一直致力于运用至强D处理器,这一社交巨头也已经充分考虑过如何高密度ARM系统芯片充当其前端服务器。不过就目前的情况来看,英特尔最终从这场比拼当中胜出。
Facebook公司硬件设计工程师Harry Li解释道,“我们大约在两年之前开始尝试系统芯片的实验性使用。当时,市场上的大部分系统芯片产品为轻量级方案,其主要专注于以小型计算核心带来低功耗优势。其中大多数产品的功耗在30瓦以下。我们的第一套方案是将36块系统芯片整合在一台2U机柜当中,这意味着单一机架之内能够容纳540块系统芯片。不过该解决方案并没能顺利起效,这是因为其单线程性能实在太低,导致我们的Web平台出现了延迟增高的情况。甚至这一经验,我们转变思路、选择在继续使用模块化系统芯片方案的同时引入高功耗处理器。”
其它相关信息
根据开放计算项目总裁Frank Frankovsky的说法,苹果公司已经加入到开放计算项目中来。“在相当长一段时间之前,苹果公司就已经以低调姿态加入了该项目。很多人都把苹果看作一家消费级技术企业,但他们同时也拥有着大批优秀的基础设施工程技术人才,”他在本届开放计算峰会的一次公开演讲中指出。开放计算最初由Facebook公司提出并推广。
社交巨头麾下的工程师们正在逐步开放其基板管理控制器(简称BMC)软件,并为其冠以OpenBMC这一恰如其分的名号。该项目代码运行在服务器主板上的微控制器当中,允许系统管理员对计算设备进行温度监控、功耗控制并通过串行LAN与内核进行通信。这种方式在设备管理方面极具实用性,特别是在操作系统发生故障的情况下。Facebook公司的软件方案是由该网站的工程师们在一次为期二十四小时的黑客马拉松活动中开发完成的。
博通公司对一套名为OpenNSL的软件库进行了开源处理,这样其它代码就能够与之交互并控制其网络ASIC。如今Facebook公司已经发布了运行在其网络交换机之上的FBOSS Agent,并利用OpenNSL对其Wedge架顶式交换机中的底层博通ASIC加以控制。
Facebook公司已经为其Wedge架顶式交换机规划了设计蓝图,目前Accton、博通、Cumulus以及Big Switch等厂商都在着手为其它买家打造硬件方案,其中Accton已经准备于今年上半年发售该设备。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。