ZD至顶网服务器频道 06月28日 新闻消息(文/邹大斌): 6月22日,中国OpenPOWER峰会(OpenPOWER Summit)在北京举行,OpenPOWER基金会的成员单位和其在中国的合作伙伴参加了本次会议。透过大会,OpenPOWER向外界展示了其强大的技术实力和巨大的市场潜力。
OpenPOWER峰会是OpenPOWER基金会非常重要的一个活动,在过去的两年来,OpenPOWER峰会共举办了四次。此前的4月,这一会议刚刚在美国的圣何塞举办过。而之所以中国成为OpenPOWER峰会的举办地,很大程度上源于OpenPOWER在中国取得的良好进展。
“众所周知,OpenPOWER业务现已遍布全球各地,而我们的峰会仅在两个城市召开,一个是美国的硅谷,另一个是中国的北京。这充分说明了我们在中国市场的合作不断深入,并将继续扩大。”IBM全球高级副总裁、系统部总经理Tom Rosamilia在大会进行主题演讲时表示。
IBM全球高级副总裁、系统部总经理Tom Rosamilia
OpenPOWER基金会源于2013年IBM联合谷歌、泰安、NVIDIA和Mellanox共同成立的OpenPOWER联盟,后来演变为OpenPOWER基金会,其目标是基于IBM的POWER处理器架构建立一个全球性协作的生态系统。
自从IBM公开POWER架构后的3年里,OpenPOWER基金会已经吸纳了24个国家200多家成员,来共同致力于POWER处理器的创新。在中国市场,从2014年OpenPOWER生态系统在中国落地以来,增长速度惊人。Tom Rosamilia透露,过去12个月里OpenPOWER基金会的中国成员增加了近一倍,过去12个月新签约的成员就有10个,总计已经达到了近30个成员。这些OpenPOWER成员之间相互合作,共同形成创新的成果。
记者注意到在本次峰会上展示了部分成果,其中包括浪潮正式推出的2款OpenPOWER服务器尤为引人注目。这两款服务器都可以搭载OpenPOWER全系列处理器,支持PowerKVM虚拟化功能,能够支持64DIMM,带宽达到189GB/s。据悉,OpenPOWER服务器计算性能优异,在TCO上拥有非常明显的优势。
“POWER为我们提供了一个非常好的平台。因为与x86平台相比,POWER平台为创新公司提供了更大的可能性和创新空间,而在X86市场创新型的公司想要走出来要困难得多。” 苏州中太服务器有限公司总经理王雪松告诉记者。苏州中太服务器有限公司是中国首个推出OpenPOWER服务器的,也是OpenPOWER在中国市场非常活跃的一个厂商。
他的观点得到深圳市恒扬数据股份有限公司创始人兼总经理李浩的认可。李浩说:“尽管x86从技术上说走的也是开放的思路,但是生态格局目前已经是坚实和稳固的,留给技术创新型厂家突破的机会不多了。而POWER平台全面走向开放不久,而且更为开发,机会会有很多。”
会上腾讯也介绍了与IBM在OpenPOWER上的合作。据悉,继IBM携OpenPOWER加入了ODCC联盟后,双方正在推动OpenPOWER在天蝎计划中的落地。另外,来自中国移动和中国电信的代表也介绍了与IBM在OpenPOWER上面的合作。这些合作成果都令人振奋,让我们看到了一个基于POWER架构的大生态系统依然形成。
OpenPOWER基金会中国成员
实际上,OpenPOWER正在得到越多越多超级数据中心的认可。在4月份举行的OpenPower峰会上,Google宣布计划将与Rackspace合作共同开发OpenPOWER系统,进一步加强对OpenPOWER的投入,也正是为了满足自己独特的业务需求。而另一方面,这些合作也进一步证明了OpenPOWER的系统可以作为基于X86服务器的替代方案,来满足拥有全球大型数据中心的一些独特需求。
应该说,正是因为这种推动创新的独特价值给了OpenPOWER以生命力,让它凭借POWER强大的性能优势和不断壮大的生态得以不断成长,成为市场上一种重要的力量。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。