数据中心架构即将迎来重大变化
随着越来越多的业务与AI工作负载被迁移至云端,用户对于计算资源的需求自然也随之产生变化。如今的数据中心必须将近乎无限的资源容量与极低的处理延迟结合起来。正是这些现实要求,驱动着ARM、英特尔以及英伟达等技术供应商不断创造新的芯片设计方案与软件平台,用以支持高性能计算用例。
对供应商来说,其中显然蕴藏着巨大的市场机遇。根据统计机构做出的预测,到2025年,全球数据中心芯片市场总额将增长至156.4亿美元,达到2017年的两倍。而从英伟达的GTC大会中也可以看出,这家公司希望乘此东风进一步提升自身市场份额。没错,除了广为人知的游戏图形处理单元之外,英伟达公司也一直在为数据中心提供计算技术支持。
我们主要聊聊人工智能,因为这项技术目前代表着数据中心内计算强度最高的工作负载类型。大多数企业将英伟达GPU视为利用大型数据集训练AI模型时的首选计算资源。事实上,英伟达也确实在这部分市场上取得了巨大成功。包括沃尔玛在内的诸多企业都用实际行动为英伟达GPU投下了神圣一票。
但是,训练绝不是AI计算的全部。广义上讲,机器学习分为多个阶段,具体包括数据准备、模型训练与推理、以及将模型实际部署至生产环境等。推理阶段的核心,是使用经过训练的模型推断结果或者结论。如果说训练是AI计算流程中的高性能环节,那么推理阶段则是企业实际使用训练模型的环节。目前,大部分推理工作都在英特尔CPU上进行。
GPU成本高昂,而且业界普遍认为其无法带来适合推理场景的低廉价格。但在最近的GTC大会上,英伟达展示了其最新GPU成果如何加快整个机器学习流程,希望借此扭转人们的传统观念。如前所述,以往的GPU在处理机器学习中的计算密集型训练任务时表现出色,但在推理阶段却显得有些大材小用。同时,企业客户还迫切希望在高端数据处理领域获得性能更强的芯片解决方案。
英伟达推出基于Ampere架构的新型数据中心芯片
英伟达公司此次推出的A100属于第八代GPU设计,同时也是第一款基于Ampere架构以满足各类实际需求的产品。A100是一款专为数据中心高性能计算与推理场景设计的多实例GPU,其速度与上代Volta架构相比提升了20倍,搭载540亿个晶体管与第三代Tensor Cores。
有趣的是,这款芯片采用高灵活度设计,可在单一芯片上同时支持训练与推理类工作负载。A100能够高效扩展至数千GPU并连,也可以使用英伟达多实例GPU(MIG)技术划分出7个GPU实例以加速不同规模的工作负载。接下来就是问题的关键:每个人都清楚,英伟达GPU一直是大型模型训练领域的宠儿——但训练绝不是人工智能市场的全部。
推理工作负载在AI领域中的占比一直不断提升,也让英特尔等厂商赚了个盆满钵满。为了获得长期成功,英伟达必须拿出一套能够搞定人工智能中推理部分的解决方案。但英伟达的野心显然不止于此,他们决定改变数据中心、改变计算世界的格局。
英伟达还在大会上谈到将数据中心作为新的计算单元。EGX A100卡中封装有一块基于A100 Ampere的GPU,外加卡载Mellanox ConnectX-6 Dx NIC。二者相结合,相当于将联网功能与A100 GPU加以融合,进一步消除了不必要的额外步骤与延迟因素。
根据英伟达方面的介绍,其第三代Tensor Cores能够加速各类工作负载,并带来高达6倍的开箱即用性能水平。同时,对稀疏结构的支持又进一步将性能提升2倍,使得A100的推理表现再度升级。而对于不那么关心芯片本体的从业者来说,英伟达还在EGX A100卡上提供可随意伸缩以支持不同计算类型的性能解决方案,并通过Mellanox网络增强数据的智能移动能力。
需要强调的是,将数据中心视为新的计算单元是个宏大且意义非凡的愿景。这一概念,使得开发人员能够设计出延迟更低、且在本质上具备巨大可扩展能力的系统。越来越多的企业希望立足云端为用户提供AI与机器学习功能,这意味着数据中心功能也必须实现快速扩展。此外,对各类软件工具的支持效果同样非常重要,因此英伟达方面公布了Merlin等一系列工具。英伟达利用这些工具打造出新的平台,意在简化复杂机器学习管道(例如推荐系统)的架构模式,同时提供一套整体框架以实现对话式AI。
英伟达的最新公告至少帮助其在短期之内占得性能层面的至高点。但问题是,英伟达解决方案的推理成本虽然有所降低,但仍然不够便宜。当然,在数据密集型行业当中,性能上的突破也许才是最重要、也是客户们最关心的动态。从这个角度看,英伟达已经获得了巨大胜利。那么他们能否借此一役占据数据中心芯片市场的最大份额?我们不清楚,但英特尔肯定不会坐视这种情况的发生。
当前,我们仍处于构建未来AI基础设施的摸索初期,希望英伟达带来的新产品能够吸引到数据中心供应商们的关注。英伟达确实选择了非常完美的入市时机,如今的世界确实需要更多先进技术以支撑起更完善的高性能计算体系。Ampere 100以及对Mellanox的收购,已经成为英伟达打造下一代数据中心宏愿中的重要里程碑。英伟达这种以平台为先导的发展思路也相当明智,毕竟从长远来看,得平台者方能得天下。
好文章,需要你的鼓励
五家光学存储初创公司正在开发长期存储技术,旨在用超过100年寿命的光学介质替代只有5-7年寿命的磁带。这些公司包括Cerabyte、Ewigbyte、HoloMem、Optera和SPhotonix,它们的技术类似微软Project Silica项目。光学存储介质具有更强的化学、冲击、辐射、水和热抗性,同时保持低能耗和高容量特性。
北京大学团队开发的DragMesh系统通过简单拖拽操作实现3D物体的物理真实交互。该系统采用分工合作架构,结合语义理解、几何预测和动画生成三个模块,在保证运动精度的同时将计算开销降至现有方法的五分之一。系统支持实时交互,无需重新训练即可处理新物体,为虚拟现实和游戏开发提供了高效解决方案。
Nutanix发布分布式主权云产品组合更新,为多云环境提供更安全的运营和管理功能。该解决方案支持企业在分布式环境中灵活部署和治理基础设施,运行传统虚拟机、现代云原生和AI应用。新功能包括支持完全断网环境的暗站点管理、政府云集群正式发布、Kubernetes平台增强安全合规性、企业AI平台集成NVIDIA微服务,以及云平台新增跨站点灾难恢复能力,为用户提供统一管理和运营简化体验。
达尔豪斯大学研究团队系统性批判了当前AI多智能体模拟的静态框架局限,提出以"动态场景演化、智能体-环境共同演化、生成式智能体架构"为核心的开放式模拟范式。该研究突破传统任务导向模式,强调AI智能体应具备自主探索、社会学习和环境重塑能力,为政策制定、教育创新和社会治理提供前所未有的模拟工具。