5月3日,曙光公司在寒武纪科技2018产品发布会上,同步推出搭载寒武纪云端智能芯片MLU100的服务器产品系列“PHANERON”,先人一步将最新的智能“芯”能力推向广泛的市场应用,为曙光先进计算阵营再添新军。
曙光发布全新PHANERON系列
PHANERON是全球首款基于寒武纪芯片的AI专用服务器产品。2017年11月,曙光基于寒武纪低功耗深度学习专用处理器,率先推出PHANERON,引起业界广泛关注。时隔6个月,寒武纪发布性能更为强劲的MLU100,曙光同步升级PHANERON产品,并发布一系列搭载寒武纪MLU100的服务器产品,保持着在智能服务器领域的持续领先。
“计算科技进入一个新的发展时期,以多样化的计算场景为标志的先进计算成为趋势。”曙光公司高级副总裁任京暘在寒武纪2018产品发布会上表示,面对新时期对计算力提出的挑战,专注于计算技术创新的中科曙光顺势而为,深耕“先进计算”,在不断优化已有计算技术的同时,注重不同计算技术的融合创新及计算技术与不同行业的应用融合,同时密切关注量子计算、类脑计算等颠覆性计算技术的革新,致力于打造新时代触手可及的先进计算服务。
曙光此次与寒武纪芯片同步发布的AI专用服务器,正是其在先进计算领域众多创新性成果中的一个典型代表。任京暘表示,曙光与寒武纪是同根同源的中科院旗下企业,成立初衷均是以持续创新的精神,发展面向世界前沿的科技。曙光一直以来密切关注人工智能领域前沿科技进展,与寒武纪保持着紧密而高效的合作,实现长期协同创新。
据曙光公司总裁助理李斌介绍,曙光全新的PHANERON云端服务器可以支持2-10块寒武纪MLU处理卡,可灵活应对不同的智能应用负载。以升级版的PHANERON-10为例,单台专用服务器可集成10片寒武纪人工智能处理单元,可以为人工智能训练应用提供832T半精度浮点运算能力,为推理应用提供1.66P整数运算能力。
“这是非常惊人的计算能力。”李斌举例说,这相当于将一个200台以上的普通计算集群提供的计算能力,压缩到一个4U的计算节点中,而实际能耗只有1.2-1.3KW,“能效提升30倍以上”。
曙光不仅在硬件计算平台上与寒武纪进行配合,在系统软件层面上也完成了与寒武纪产品和技术的整合。
会上任京暘介绍说,曙光人工智能管理平台——SothisAI将支持和整合寒武纪芯片和相关软件工具,以实现对主流人工智能框架及行业应用的支持。“这体现了曙光在技术架构上与寒武纪全线产品的深度融合,未来曙光将与寒武纪长期共同推进中国人工智能技术和产业的发展。”
在2018年国家发展改革委组织实施的“互联网+”、人工智能创新发展和数字经济试点重大工程中,曙光和寒武纪分别牵头承担了“面向深度学习应用的开源平台建设及应用”和“云端深度学习处理器芯片产业化”两个重大课题。任京暘介绍,在芯片级和平台级层面,双方会展开更深入的合作。同时,曙光还将在“数据中国”战略框架下,在城市云、先进计算以及以智能安防等行业数据中心解决方案中推进寒武纪产品的落地和应用,汇聚更多的合作伙伴共建人工智能产业生态。
随着集成了寒武纪最前沿人工智能软硬件能力的智能计算的融入,曙光先进计算“大家庭”如虎添翼。基于曙光公司在全国的先进计算产业布局和立足“一带一路”沿线国家的海外布局,中科曙光推进先进计算发展一步一个脚印,切实助力了数字中国建设。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。