10月25日,中国乃至世界计算机领域的大事件——2018中国计算机大会(CNCC2018)在杭州隆重开幕。在这场院士云集、巨头齐聚的学术盛会上,孵化自中科院计算所的国家高新技术企业“中科睿芯”携最前沿的计算中心3.0产品——“金刚”高通量计算机强势亮相,成为大会焦点。
中科院计算所高通量计算中心主任、中科睿芯董事长范东睿将以《高通量数据流众核处理器》为题做大会特邀报告,对“金刚”高通量计算机相关核心技术进行详细介绍。此外,本次CNCC2018大会期间,在中科睿芯展台全程可以看到“金刚”高通量计算机的“真身”,并可在工作人员的操作下观摩“金刚”支持的典型高通量应用演示。
睿芯高通量计算机——“金刚”是在当天下午的“高通量产业圆桌论坛”上发布的。据中科睿芯总经理王达介绍,“金刚”是经计算所的高通量计算技术转化、由中科睿芯创造性研制的新型高通量计算机。在一系列体系结构创新技术的加持下,“金刚”具有高并发、强实时等适于大数据计算的特点,将以其独有的高密度、高能效特性满足下一代数据中心基础设施的建设需求。
“从第一台电子计算机诞生至今,70年来人类经历了以‘机’为中心的IT1.0时代和以‘人’为中心的IT2.0时代,目前正进入以‘物’为中心的IT3.0时代。” 中科院计算所所长、研究员孙凝晖说,在万物互联的IT3.0时代,大数据处理对计算的并发性和实时性都提出极高的要求。正是在这一背景下,高通量计算机应运而生。
据介绍,在强时间约束下,高通量计算机能够全局可控处理高吞吐量请求,可适用于现有大多数有着大数据处理需求的应用场景。
技术细节上,由中科睿芯发布的“金刚”高通量计算机群,其核心技术主要来源于睿芯核心技术团队,包括该团队十余年来对众核体系结构的研究而形成的SmarCo-2加速芯片、整机设计技术以及机群设计技术等。同时,“金刚”的问世也离不开来自中科院计算所的从访存到协议、系统软件和平台软件等不同层次的技术支持。
王达介绍说,未来,中科睿芯还将打造高通量体系架构的CPU,力求实现高通量计算机全系统的自主可控。与此同时,中科睿芯还以其与中科院计算所和中关村顺义园管委会联合成立的“北京智能计算产业研究院”为平台,推动和完善高通量计算生态建设。成立不到1年,中科睿芯已为高通量计算生态系统引入上下游企业50余家,其中包括多家海外归国创业公司。
CNCC2018大会开幕当天,中科睿芯主办了主题为“拥抱数据•金刚来袭”的高通量产业圆桌论坛。在中科院计算所高通量中心主任、中科睿芯董事长范东睿的主持下,国家互联网应急中心、腾讯云、360、阿里云、科大讯飞等业界领袖和专家围绕“金刚”高通量计算机及其开启的高通量计算时代等话题,展开了热烈研讨和交流。
与会专家认为,随着数据量的爆炸性增长,“信息高铁时代”即将来临。面对海量数据及人工智能算法等因素带来的计算压力,传统通用的计算架构越来越难以满足大数据处理对高并发、强实时的计算需求;同时,从终端设备到数据中心,计算设备对功耗、时延、数据量的敏感性也在不断提升,更适于大数据计算的新型计算机体系结构呼之欲出。因此,高通量计算是计算机技术发展的必然。
国家互联网网络应急协同中心与中科睿芯是长期的合作伙伴,睿芯已有的音视频加速设备在中心得到了很好的应用,中心包秀国博士指出他期待睿芯的新产品-高通量服务器在互联网安全领域的进一步应用。
奇虎360技术总裁兼首席安全官谭晓生指出在万物物联的时代,为保证物联网的安全性对云和边缘节点的计算能力提出了更高的需求,360用于做安全的有近10万台服务器,而能耗是数据中心在运营过程中面临的最大问题。他认为通过高通量计算来提高数据吞吐量,提升计算能力,降低综合能耗是未来建设未来绿色数据中心的重要方向。
腾讯云副总裁王龙指出,随着终端客户对数据实时性,训练质量以及处理速度等需求的不断增加,高通量计算集群对于云来说是非常有用的。通过把更多云上的负载放到高通量集群中,一方面可以节约成本,提高数据处理效率;另一方面也能更好的助力各行各业的数字化转型,为产业界提供更多的价值。
据国际数据研究机构IDC发布的最新研究报告显示,到2025年,全球需要管理的数据量将会达到163ZB,这一数字是2016年数据量的10倍。“不要聚焦在‘大数据’,要聚焦‘高效处理“大”的数据’。”孙凝晖表示,可以预见,高通量数据处理正成为行业领域研究的主要内容,这些研究将会避免人们“淹没”在海量数据之中。
据了解,高通量计算的概念最早由中科院计算所于2005年提出,经过十余年的高通量前沿技术研究,中科睿芯率先以中科院创企的身份对高通量计算相关技术展开了产业化推广应用。目前,尽管国内尚无更多高通量计算技术型企业,但在学术界,领域专家围绕高通量图计算、高通量边缘计算等研究,已涌现出一系列成果。
在由中科睿芯承办的高通量计算技术前沿论坛上,中科院计算所所长、研究员孙凝晖介绍说,早在2005年,计算所就前瞻性地启动了高通量计算的研究探索。在国家科技部2个973项目和多个国家重点研发计划基础研究项目的连续资助下,计算所研究团队历时10余年,完成了从高通量芯片到高通量计算系统的一系列创新技术研发。
孙凝晖回忆说,2016年底,计算所正式设立高通量计算机研究中心,开始集中目标于高通量计算技术研究,并完成了“低延迟、高通量、高确定性”的高通量计算机原型系统研制。目前,高通量计算机已经针对深度学习、高通量音视频处理、科学大数据处理、信息安全检测、生物信息处理、大规模图数据处理等典型场景开展示范应用。
“中科院计算所的高通量计算技术转移到中科睿芯,形成了高通量系列加速芯片、高通量视频流处理节点、高通量机群、城市高通量计算中心等产品形态成果,形成了从芯片、加速卡、节点、机群到数据中心的一整套高通量产品线。”王达说,目前高通量计算技术已经在各大运营商、城市公共计算平台等得到推广应用。在海量数据流过的同时保证处理的实时性。
“随着高通量计算机系统的成功研制,高通量计算技术将逐步应用到国民经济主战场,贡献于国计民生。”孙凝晖说。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。