当你回忆起这两年的AI江湖,就不得不提起那场惊天动地的“华山论剑”——百模大战。当“东邪”“西毒”“南帝”“北丐”争锋于此,那个站在AI之巅的男人,却稳坐中军,笑看风云。
他,一个早年便在科技圈成名的“皮衣刀客”,十几年如一日的黑皮衣,左臂“焊”有英伟达图标纹身,他是硅谷最好斗的人,被尊称为“AI教主”。他叫黄仁勋,是NVIDIA公司创始人兼首席执行官。你可曾还记得,当黄教主穿着他心爱的皮衣“通知”全世界,属于生成式AI的时代来了,仿佛一只蝴蝶煽动翅膀,世界也因此而改变.....
来源:网络
如果你要问,黄教主如何把“武功”练到绝对上乘?有人说,当然是他得到了秘籍。那这本“秘籍”藏在哪里?最近,江湖传闻称,NVIDIA全球副总裁、中国企业营销负责人刘念宁从黄仁勋口中得到了答案。
黄教主亲传秘诀:“三芯+二意” 打造(AI)世界
“我向他请教如何在百模大战中胜出,他微笑着告诉我,有秘诀,也有秘籍。他说,秘诀就是“三芯+二意”,打造(AI)世界。”刘念宁这样说。
“三芯”是CPU、GPU和DPU,“二意”是DOCA与CUDA。在“三芯”中,CPU与GPU在计算中的地位自然不必多言。而随着人工智能的崛起,数据中心将成为新的计算单元,DPU也随之与CPU、GPU一同成为未来计算的三大支柱。
如果说CPU是构建主机时代计算的核心,那么DPU就是企业构建加速计算平台、AI工厂和AI云的关键。通过把数据中心基础设施操作从CPU 卸载到DPU 上,可以将CPU和 GPU 的计算资源集中到应用程序和业务负载上。这是数据中心演变的大势所趋,也是推出NVIDIA® BlueField系列DPU的核心价值。
在“二意”中,CUDA是NVIDIA于2016年推出的一种通用并行计算平台和编程模型,利用NVIDIA GPU中的并行计算引擎以比CPU更有效的方式解决许多复杂的计算问题。DOCA则是英伟达为支持广大开发者在BlueField DPU进行软件开发,量身打造了一个软件开发套件。
作为一种集数据中心功能于芯片的架构,DOCA能够帮助开发者轻松地对未来的数据中心基础设施进行编程。通过采用DOCA,开发者可以创建软件定义、云原生,以及由DPU加速的服务,以此对未来的数据中心基础设施进行编程,同时实现零信任保护,满足现代数据中心日益增长的性能和安全需求。
DOCA之于DPU,正如CUDA之于GPU。
英伟达DPU“神功”修炼秘籍初现江湖
目前,全球DOCA开发者中将近一半来自中国。针对全新的NVIDIA BlueField 系列 DPU 计算平台和NVIDIA DOCA 软件开发环境,开发者迫切需要一本由浅入深、化繁为简的入门书籍,从而帮助没有DPU 开发经验的人快速掌握DOCA 软件开发技能,同时帮助具有 DPU 开发经验的从业人员更系统地学习 DOCA 软件开发环境,并辅助数据中心管理人员和开发运维人员更好地在数据中心部署和使用NVIDIA BlueField 系列 DPU和NVIDIA DOCA 应用程序或服务。
为此,NVIDIA 集合了十余位资深系统架构师,历经数月编写了一本“武林秘籍”,为全球最大DOCA开发者社区的中国开发者提供了官方的参考书籍,以便他们入门学习 DPU 和 DOCA。有“江湖”消息称,“秘籍”一经发售,百度智能云技术委员会主席王耀、UCloud 联席 CTO 王凯、VMware 资深总监兼中国区云平台部门总经理宋向军、EE Times China 资深产业分析师黄烨峰便纷纷寻到这本秘籍,并做出一致好评。
10 月 17 日,这本由 NVIDIA 撰写的“武林秘籍”——《数据处理器: DPU 编程入门》终于现世。这是NVIDIA的全球首部DPU处理器编程入门书籍,由机械工业出版社出版,将为使用 NVIDIA BlueField 系列DPU和NVIDIA DOCA开发环境的开发者提供实用指南,助力开发者快速上手,学习如何在DPU上灵活编程。
“DPU可以在数据中心更好地实现数据在不同处理器间的快速传输,从而释放出宝贵的CPU和GPU资源,以实现快速的用户需求响应。”NVIDIA 中国区工程和解决方案高级总监赖俊杰这样说。
NVIDIA全球副总裁、中国企业营销负责人 刘念宁(右)
NVIDIA 中国区工程和解决方案高级总监 赖俊杰(左)
《数据处理器: DPU 编程入门》
NVIDIA网络市场总监孟庆解读了《数据处理器: DPU 编程入门》的亮点,他介绍称,该书详细阐述了DPU的概述、技术优势和未来发展,以及如何配置DOCA软件开发环境和开发基于BlueField DPU的程序。读者可以通过本书全面了解DPU硬件架构和软件开发,学习如何使用BlueField DPU和DOCA开发环境,掌握如何实现软件定义、硬件加速的数据中心基础设施应用。
NVIDIA网络市场总监 孟庆
孟庆透露说:“目前,英伟达正在进行DOCA应用代码分享活动,开发者不仅可以学习DPU,还能利用DOCA进行开源代码分享。
在谈及DOCA与采用其他基础开源API进行DPU开发的优势时,英伟达DPU和DOCA技术专家崔岩直言:“DOCA与CUDA一样,是一个全面的平台,可以满足不同的开发需求,能更方便、更快速地实现应用功能。”
英伟达DPU和DOCA技术专家 崔岩
事实上,DOCA分为两个层面:底层是DOCA DriverAPI,其中融合了DPDK、SPDK和UCX等相关功能。上层则是DOCA Lib API,提供高级的API库,这些库基于DOCA Driver抽象,能帮助开发者快速实现功能,尤其适用于那些希望快速进入市场,参与竞争或创新,而不想过多关注底层硬件设计的开发者。
然而,如果开发者需要深入底层,DOCA也提供相应细颗粒度的API供其开发。开发者既可以将两个层次结合开发,也可以将为了加速开发的功能实现放到API库上。
孟庆进一步透露,未来,英伟达将推出更深层次的“秘籍”,如运用DPA开发自定义拥塞控制等内容。
在生成式AI时代,DPU是企业构建加速计算平台、AI工厂的关键。“NVIDIA BlueField 系列DPU在NVIDIA DOCA 软件开发环境的支持下,能帮助企业构建一个软件定义、硬件加速的数据中心基础设施,从而更好地支撑大模型训练的苛刻要求,值得广大开发者投入研究和学习。”刘念宁总结说。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。