百度智能云揭秘:AI原生时代的操作系统变革

在近日举行的Create 2024百度AI开发者大会上,百度智能云正式发布新一代智能计算操作系统——万源,通过对AI原生时代的智能计算平台进行抽象与封装设计,为用户屏蔽掉云原生系统与异构算力的复杂性,提升AI原生应用开发效率与体验。

随着大模型技术的不断演进,通过自然语言进行编程正在成为现实,这也为操作系统带来革命性的变化。

在近日举行的Create 2024百度AI开发者大会上,百度智能云正式发布新一代智能计算操作系统——万源,通过对AI原生时代的智能计算平台进行抽象与封装设计,为用户屏蔽掉云原生系统与异构算力的复杂性,提升AI原生应用开发效率与体验。

百度智能云揭秘:AI原生时代的操作系统变革

百度集团副总裁侯震宇告诉记者,操作系统是通用软件,而且对于常见的PC或者手机操作系统,开发者是接触不到内核的,但是应用都是基于内核的能力进行构建的。万源的架构是完全开放给开发者的,他可以自由选择,包括使用底层的百舸基础算力,也可以直接调用模型的API,也可以使用千帆ModelBuilder、千帆AppBuilder来开发AI原生应用。

AI原生时代需要全新的操作系统

说起操作系统,我们对于Windows、Linux和macOS等非常熟悉。操作系统的核心功能就是管理硬件和软件,并且一层层往下屏蔽底层的复杂性、往上抽象成简单的交互界面。

在移动互联和云计算时代,伴随着硬件设备的发展和软件复杂性的提高,操作系统也从个人单机到云计算分布式持续演进,开发者可以基于最新的OS开发最新的应用。

而进入到AI原生时代,软件开发的范式已经改变,编程不再是面向过程、面向对象,而是面向需求,可以不再借助专业的编程语言,而是自然语言,也就是编程的门槛在大幅降低,人人都是开发者的时代已经到来。

在这种情况下,与时俱进的操作系统需要将管理的对象从管理进程、管理微服务,进化为管理智能,为开发者提供更简单、更流畅的开发体验。开发者只需要关注业务本身的逻辑,使用简单的开发语言和功能布局,开发相应的软件功能。

而万源便是这样的OS,其由Kernel(内核)、Shell(外壳)、Toolkit(工具)三层构成,底层屏蔽掉云原生系统与异构算力的复杂性,上层则为AI原生应用的敏捷开发提供支撑与保障。

面对多样化AI芯片,以最小代价完成算力适配

由于GPU芯片的供应不确定性问题,现在国内AI芯片层出不穷,虽然这丰富了市场选择,但是也带来了适配和生态割裂等难题。不同芯片之间的互联是非常难的。

在多元算力的情况下,我们需要通过软件定义让多种类型的算力融合、协同,并实现快速切换。

目前,百舸能够实现万卡集群上的模型有效训练时长占比超过98.8%,线性加速比、带宽有效性分别高达95%,算力效能业界领先。

对企业来说,在大模型训练中支持“一云多芯”是很难的技术问题。智算集群中存在多个训练任务,单一厂商芯片只服务单一任务;在每个独立的模型训练任务中同时使用不同厂商芯片。这就需要解决不同厂商芯片算力均匀切分、芯片间通信效率优化等问题,难度极高。

侯震宇解释说,因为每家芯片厂商的算子实现并不一样,对网络和存储有着不同的要求,导致在同一个环境里的性能表现不同。

为了让异构芯片都跑在同一张算力网里,跑同一个大模型训练任务,百舸在整个框架层面上把底层的通信和上层的算子优化进行拆开,做好统一的底层通信库,并采用了用Tensor Parallel(张量并行)、流水线并行,模型并行等多种并行策略,且采用自研自适应算法自动实现并行策略的参数设定。

百度智能云揭秘:AI原生时代的操作系统变革

多项创新技术优化之下,百舸平台目前实现了百卡规模、单一训练任务下的多芯片混合训练,并且把训练性能损失控制在3%;千卡规模下,性能损失不超过5%,这也是国内单一任务、一云多芯训练的最好成绩。

百舸兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片,支持用户以最小代价完成算力适配。最大程度上屏蔽硬件之间差异,帮助用户摆脱单一芯片的依赖,实现更优成本,打造更具弹性的供应链体系。

“屏蔽技术的复杂性,让算力资源使用更加高效、低成本,为开发者提供简洁、方便的AI原生应用开发工具,是我们推出万源的初衷。”侯震宇说。

内嵌大模型,加速AI原生应用开发

大模型的典型特点是将知识进行压缩,将相关能力进行封装。

目前,万源内核中既包含了业界领先的ERNIE 4.0、ERNIE 3.5大语言模型,也包括ERNIE Speed/Lite/Tiny等轻量级模型、文心视觉大模型和各具特色的第三方大模型,充分满足用户在不同业务场景下的多样化需求。

在内核层之上是Shell层,开发者通过百度智能云千帆ModelBuilder解决内核中模型的管理、调度、二次开发等问题,快速精调出适合自己业务的模型。

同时,在实际应用中,千帆ModelBuidler提供模型路由服务,能够自动为不同难度的任务选择合适参数规模的模型。经测算,在模型效果基本持平的情况下,模型路由平均降低推理成本多达30%!

丰富的AI原生应用才是大模型的价值所在。在开发AI原生应用时,大模型的基础能力至关重要。

千帆AppBuilder和AgentBuilder为开发者提供强大的AI原生应用开发能力。尤其是AppBuilder提供的工作流编排功能,支持开发者使用预置的模板和组件,轻松定制自己的业务流程,还能够集成、扩建自己的特色组件,在不同节点上选用适合的模型,通过灵活的编排实现业务逻辑。

在AppBuilder上开发AI原生应用的过程中,还可以直接调用通过千帆ModelBuilder精调过的模型,让整个开发过程变得极为流畅和便捷。在应用开发完成后,可以一键发布到百度搜索、微信公众号等平台,也可以通过API或SDK的方式直接集成到用户自己的系统中,真正做到极速开发、轻松上市。

目前,AppBuilder工具组件扩增至54个,包括数十个大模型能力组件、AI能力组件以及百度自有的搜索组件等,为开发者提供了更加丰富、便捷的开发工具。为了加速应用的快速落地,AppBuilder新增多渠道应用分发与集成功能,开发者可一键将应用分发到微信公众号、Web端、H5或百度灵境等多渠道,实现应用快速上线。

结语

万源新一代的智能计算操作系统的发布既体现了技术的发展趋势,也响应了的开发者和企业的需求。

作为开放的操作系统,万源也在发挥自身的生态聚合优势,为应用开发者提供更多能力和接口;帮助企业打造专属的垂直行业操作系统,提供稳定、安全、高效的智能计算平台服务。

“整个云计算市场格局会伴随着AI而产生巨大的变化,我们希望能够通过万源操作系统,把我们多年的积累能够给到开发者,极大繁荣上层的AI原生应用。”侯震宇最后说。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2024

04/23

14:59

分享

点赞

邮件订阅