ZD至顶网服务器频道 06月21日 新闻消息:
PCIe接入形式的英伟达P100
英伟达公司已经推出了其Tesla P100加速芯片,采用PCIe卡形式且可接入标准服务器节点以支持人工智能与超级计算机级别的工作负载处理工作。
P100公布于今年4月在加利福尼亚州召开的英伟达GPU技术大会上:这款16纳米FinFET图形处理器在一块600平方毫米晶片上容纳有150亿个晶体管。其设计目标在于每秒实现万亿级别计算,适用软件包括神经网络训练以及天气与粒子模拟。这款GPU采用英伟达的Pascal架构,能够实现CPU与GPU之间的页面迁移。
每块P100包含4个每秒40 GB英伟达NVLink端口,分部接入GPU集群。NVLink为英伟达公司设计的高速互连机制。IBM公司的Power8+与Power9处理器皆支持NVLink,允许主机的Power CPU核心直接与各GPU相对接。
这些来自蓝色巨人的芯片主要服务于美国政府所拥有的各超级计算机及其它高负载设备。不过在民用领域,我们普遍使用x86处理器支撑后端工作负载。
时至今日,数据中心内的绝大部分计算处理器由英特尔公司提供;然而英特尔方面并不支持英伟达的NVLink,而且似乎也没有在这方面做出努力的计划。因此,英伟达方面拿出了自己的解决办法,即PCIe版本的Tesla P100卡,帮助服务器构建人员将加速处理器同其x86设备相结合。这意味着GPU能够通过NVLink实现彼此间的高速通信,同时经由PCIe总线接入主机CPU。
目前PCIe P100分为两种型号:其一HBM2堆栈内存为16 GB且内存传输带宽为每秒720 GB;其二成本更为低廉,HBM2内存为12 GB且内存传输带宽为每秒540 GB。二者皆采用PCIe gen-3 x 16通道以实现每秒32 GB传输能力。
二者在处理64位双精度运算与32位单精度运算时的持续性能水平分别为4.7万亿次与9.3万亿次;16位半精度运算则为18.7万亿次。这一水平略低于原始P100在双、单与半精度运算中的5.3万亿次、10.6万亿次与21万亿次。原因在于,PCIe卡的性能由于发热量的考虑而必须有所牺牲——毕竟我们不希望塞满了GPU加速节点的机架由于全力运转而被融化。
另外,NVLink P100的额定功率为300瓦,而其16 GB PCIe表亲的功率水平为250瓦,12 GB版本的功耗则更低。
顺带一提,如果大家希望在非NVLink服务器上使用全速、全功率Tesla P100,其实也是能够实现的:系统制造商能够在主机上添加PCIe gen-3接口,从而实现额外的性能提升。不过如果大家只希望使用PCIe,那么目前的低功耗、低性能PCIe选项已经非常理想。
“PCIe P100将成为主力系统——即大规模计算设备,”英伟达公司高级产品经理Roy Kim在接受采访时表示。他同时建议称,每个服务器节点可以接入4到8块该PCIe卡。
这些PCIe设备预计将在2016年第四季度正式推出,且面向克雷、戴尔、惠普、IBM以及其它英伟达合作伙伴发布。其最终定价将取决于经销商,但根据我们得到的消息,其价格会与目前的英伟达K80基本持平——后者的售价约为4000美元。
而在价值层面,英伟达方面告诉我们,P100 PCIe卡将在今年晚些时候作为欧洲各顶级超级计算机的构建组件,其中包括位于瑞士卢加诺国家超级计算中心的Piz Daint。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。