2月24~28日,第24届高性能计算机体系结构会议(HPCA2018)在奥地利首都维也纳隆重举行。在此次计算机体系结构领域的学术顶级会议上,中科院计算所高通量中心主任、中科睿芯董事长范东睿研究员带队向国际同行报告了中国在高通量计算研究领域的重要成果“面向数据中心高通量应用处理的众核处理器”,受到了广泛关注,尤其是工业界的赞誉。同题论文被HPCA 2018录用发表。
“高通量计算(HTC)核心芯片的设计在HPCA这种顶级会议发表,是中科院计算所提出的高通量计算研究方向的一次重要时刻,这标志着国际上对高通量基础研究的认可与重视。”范东睿说,随着数字时代的推移与智能时代的来临,大数据处理对计算的需求面临着从HPC(高性能计算)向HTC的变迁,HTC应用的爆发已经到来,HTC系统将集成AI等新计算特征引领时代技术方向。
作为高通量计算技术的奠基人,中科院计算所所长、计算机学会副理事长孙凝晖研究员指出:未来计算的世界,将越来越清晰地划分为两个阵营,一支是以传统做“高性能计算”为基础的产业力量,会继续以改良的方式去被动适应新时代高通量应用的需求变化;还有一支是引领“高通量处理”技术的新生力量,比如中科睿芯和高通公司推出的全新的高通量众核处理芯片与高通量处理系统。中科院计算所在此方向有长达十年的大规模投入与研发,现在到了贡献产业贡献国民经济的时刻。
“高通量计算的技术核心是‘体系结构级的数据流思想’,强调高通量、强实时、低延迟以及易扩展等特征,天生适合‘吞噬’海量大数据。”范东睿介绍说,高通量计算的处理方式适用于互联网新兴应用负载特征,可在强时间约束下处理高吞吐量请求,呈现出对数据的一种“吞噬效果”。
人类产生的数据量日益惊人。据IDC最新报告显示,到2025年,人类创造的数据量将达到163ZB(1ZB=1000EB),是2016年的10倍。
“人类将彻底淹没在数据之中,数据的实时处理对瞬时吞吐提出了更高的要求,传统的高性能处理器已经无法满足未来数据中心的负载特征,仅靠设备的堆积已经无法真正解决问题。”范东睿举例说,诸如Google、Facebook这样的新兴互联网公司,需要数据中心能够提供亿级并发请求访问的能力,同时保障QoS。因此,数据中心应用将从以前的“求快”变为“求多”,服务器处理器芯片也相应地从传统追求单个任务的“快”,变为单位时间处理任务数量的“多”。
相较于传统高性能处理器,高通量处理器更注重单位时间任务处理量的提升,特别适用于解决数据中心任务相对独立且访存比例大的难题。而在大数据时代,数据处理效率是系统最关键的指标。
据Synergy Research最新报告,2017年全球超大规模数据中心数量由300家增至390家,且2018年没有丝毫放缓的迹象。此外,绝大多数超大规模数据中心仍位于美国,占全球44%,遥遥领先于位居第二的中国(8%),国内数据中心需求仍将呈爆发式增长。这从另一个角度说明,我国在大数据处理核心引擎上面还是很落后的,我国的大部分工作都集中在应用层模仿与创新,在计算机体系结构核心层的技术努力非常欠缺,核心技术基本都是采用美国的方案。
中科睿芯李文明博士在会议上做SmarCo报告
高通量计算擅长将“数据在流动中被处理”,这有效避免了反复访问存在效率与能耗上的损失。中科院计算所副研究员叶笑春博士解释说,像人脑一样,数据流思想擅长“并行”和“不规则运算”,这从根本上解决了海量数据处理多样性的问题。同时,与人工智能契合的数据流思想,也为研制具有通用性、高通量特性的普适人工智能芯片奠定了基础。叶笑春介绍说,中科睿芯研发的最新一代面向数据中心高通量应用处理的众核处理器SmarCo,相对于传统高性能处理器在能效比方面有一个数量级以上的提升。
相较于GPU,高通量芯片在AI、图计算、数据分析、区块链等方面有着显著的性能优势。中科睿芯将发挥在高通量体系结构研究领域的优势,设计高通量整体解决方案,为智能时代提供最直接的高通量计算产品和服务。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。