数据中心架构即将迎来重大变化
随着越来越多的业务与AI工作负载被迁移至云端,用户对于计算资源的需求自然也随之产生变化。如今的数据中心必须将近乎无限的资源容量与极低的处理延迟结合起来。正是这些现实要求,驱动着ARM、英特尔以及英伟达等技术供应商不断创造新的芯片设计方案与软件平台,用以支持高性能计算用例。
对供应商来说,其中显然蕴藏着巨大的市场机遇。根据统计机构做出的预测,到2025年,全球数据中心芯片市场总额将增长至156.4亿美元,达到2017年的两倍。而从英伟达的GTC大会中也可以看出,这家公司希望乘此东风进一步提升自身市场份额。没错,除了广为人知的游戏图形处理单元之外,英伟达公司也一直在为数据中心提供计算技术支持。
我们主要聊聊人工智能,因为这项技术目前代表着数据中心内计算强度最高的工作负载类型。大多数企业将英伟达GPU视为利用大型数据集训练AI模型时的首选计算资源。事实上,英伟达也确实在这部分市场上取得了巨大成功。包括沃尔玛在内的诸多企业都用实际行动为英伟达GPU投下了神圣一票。
但是,训练绝不是AI计算的全部。广义上讲,机器学习分为多个阶段,具体包括数据准备、模型训练与推理、以及将模型实际部署至生产环境等。推理阶段的核心,是使用经过训练的模型推断结果或者结论。如果说训练是AI计算流程中的高性能环节,那么推理阶段则是企业实际使用训练模型的环节。目前,大部分推理工作都在英特尔CPU上进行。
GPU成本高昂,而且业界普遍认为其无法带来适合推理场景的低廉价格。但在最近的GTC大会上,英伟达展示了其最新GPU成果如何加快整个机器学习流程,希望借此扭转人们的传统观念。如前所述,以往的GPU在处理机器学习中的计算密集型训练任务时表现出色,但在推理阶段却显得有些大材小用。同时,企业客户还迫切希望在高端数据处理领域获得性能更强的芯片解决方案。
英伟达推出基于Ampere架构的新型数据中心芯片
英伟达公司此次推出的A100属于第八代GPU设计,同时也是第一款基于Ampere架构以满足各类实际需求的产品。A100是一款专为数据中心高性能计算与推理场景设计的多实例GPU,其速度与上代Volta架构相比提升了20倍,搭载540亿个晶体管与第三代Tensor Cores。
有趣的是,这款芯片采用高灵活度设计,可在单一芯片上同时支持训练与推理类工作负载。A100能够高效扩展至数千GPU并连,也可以使用英伟达多实例GPU(MIG)技术划分出7个GPU实例以加速不同规模的工作负载。接下来就是问题的关键:每个人都清楚,英伟达GPU一直是大型模型训练领域的宠儿——但训练绝不是人工智能市场的全部。
推理工作负载在AI领域中的占比一直不断提升,也让英特尔等厂商赚了个盆满钵满。为了获得长期成功,英伟达必须拿出一套能够搞定人工智能中推理部分的解决方案。但英伟达的野心显然不止于此,他们决定改变数据中心、改变计算世界的格局。
英伟达还在大会上谈到将数据中心作为新的计算单元。EGX A100卡中封装有一块基于A100 Ampere的GPU,外加卡载Mellanox ConnectX-6 Dx NIC。二者相结合,相当于将联网功能与A100 GPU加以融合,进一步消除了不必要的额外步骤与延迟因素。
根据英伟达方面的介绍,其第三代Tensor Cores能够加速各类工作负载,并带来高达6倍的开箱即用性能水平。同时,对稀疏结构的支持又进一步将性能提升2倍,使得A100的推理表现再度升级。而对于不那么关心芯片本体的从业者来说,英伟达还在EGX A100卡上提供可随意伸缩以支持不同计算类型的性能解决方案,并通过Mellanox网络增强数据的智能移动能力。
需要强调的是,将数据中心视为新的计算单元是个宏大且意义非凡的愿景。这一概念,使得开发人员能够设计出延迟更低、且在本质上具备巨大可扩展能力的系统。越来越多的企业希望立足云端为用户提供AI与机器学习功能,这意味着数据中心功能也必须实现快速扩展。此外,对各类软件工具的支持效果同样非常重要,因此英伟达方面公布了Merlin等一系列工具。英伟达利用这些工具打造出新的平台,意在简化复杂机器学习管道(例如推荐系统)的架构模式,同时提供一套整体框架以实现对话式AI。
英伟达的最新公告至少帮助其在短期之内占得性能层面的至高点。但问题是,英伟达解决方案的推理成本虽然有所降低,但仍然不够便宜。当然,在数据密集型行业当中,性能上的突破也许才是最重要、也是客户们最关心的动态。从这个角度看,英伟达已经获得了巨大胜利。那么他们能否借此一役占据数据中心芯片市场的最大份额?我们不清楚,但英特尔肯定不会坐视这种情况的发生。
当前,我们仍处于构建未来AI基础设施的摸索初期,希望英伟达带来的新产品能够吸引到数据中心供应商们的关注。英伟达确实选择了非常完美的入市时机,如今的世界确实需要更多先进技术以支撑起更完善的高性能计算体系。Ampere 100以及对Mellanox的收购,已经成为英伟达打造下一代数据中心宏愿中的重要里程碑。英伟达这种以平台为先导的发展思路也相当明智,毕竟从长远来看,得平台者方能得天下。
好文章,需要你的鼓励
Hugging Face推出开源工具Yourbench,允许企业创建自定义基准来评估AI模型在其内部数据上的表现。这一工具通过复制大规模多任务语言理解基准的子集,以极低成本实现了对模型性能的精确评估。Yourbench的出现为企业提供了更贴合实际需求的AI模型评估方法,有望改善模型评估的方式。
Cognition AI 推出 Devin 2.0,这是其 AI 驱动的软件开发平台的更新版本。新版本引入了多项功能,旨在提升开发者与自主代理之间的协作效率。最引人注目的是,Devin 2.0 的起价从每月 500 美元大幅下调至 20 美元,使其更易于普及。新功能包括并行 Devin、交互式规划、代码库搜索等,有望提升开发效率并增强用户控制。
安迪·卡拉布蒂斯是一位杰出的CIO,她的职业生涯横跨多个行业和地区,经历了多次变革时刻。她在福特和通用汽车锻炼了领导力和技术专长,后来在戴尔、拜奥根和国家电网等公司担任高管,推动战略创新。本文总结了她对IT领导者核心技能的见解,包括战略沟通、情商、协作、远见卓识、变革管理和敏捷性等,对当今IT领导者具有重要参考价值。
边缘 AI 计算将使人形机器人、智能设备和自动驾驶等应用从数据中心和云端服务器解放出来,转移到制造车间、手术室和城市中心等场景。它能实现低延迟和自主决策,使 AI 无处不在,推动工业设施全面自动化,彻底改变商业和生活方式。边缘 AI 正在快速发展,各大科技公司纷纷推出相关硬件和软件平台,未来将为各行各业带来巨大变革。