Nvidia今天透露,已经收购了Run:ai,一家开发优化显卡集群性能软件的初创公司。
此次收购交易的条款并未披露。TechCrunch援引两位知情人士的话报道称,此次交易对Run:ai的估值为7亿美金,这几乎是这家总部位于特拉维夫的初创公司在收购之前筹集的资金金额的6倍。
Run:ai的正式名称为Runai Labs Ltd,提供的软件主要用于加速配备了GPU的服务器集群。据该公司称,由其技术支持的GPU环境可以运行的AI工作负载比其他方式要多出10倍,而且它是通过修复几个经常影响GPU驱动的服务器的常见处理效率低下问题来提高AI性能的。
Run:ai解决的第一个问题,源于AI模型通常使用多个显卡进行训练。为了将神经网络分布在GPU集群上,开发人员会将其分成多个软件片段,并在不同的芯片上训练每个片段。这些AI片段必须在训练过程中定期相互交换数据,这可能会导致性能问题。
如果AI片段必须与当前未运行的神经网络的不同部分交换数据,则必须暂停处理,直到后一个模块上线,由此产生的延迟会减慢AI训练的工作流程。Run:ai可以确保促进数据交换所需的所有AI片段同时在线,从而消除不必要的处理延迟。
Run:ai的软件还避免了所谓的内存冲突。在这种情况下,两个AI工作负载会尝试同时使用GPU内存的同一部分。GPU会自动解决此类错误,但故障排除过程需要时间。在AI训练过程中,修复内存冲突所花费的时间会显着增加并减慢处理速度。
在同一GPU集群上运行多个AI工作负载还可能导致其他类型的瓶颈。如果其中一个工作负载需要的硬件超出预期,那么它可能会使用分配给其他应用的基础设施资源并放慢这些应用的速度。Run:ai提供的功能可以确保每个AI模型都获得足够的硬件资源,在没有延迟的情况下完成分配的任务。
Nvidia副总裁、DGX云部门总经理Alexis Bjorlin在一篇博客文章中详细介绍了这一点,他说:“该公司在Kubernetes上构建了一个开放平台,这是现代AI和云基础设施的编排层,支持所有主流的Kubernetes变体,并与第三方AI工具和框架进行了集成。”
Run:ai主要销售核心基础设施优化的平台以及其他两种软件工具。首先是Run:ai Scheduler,它提供了一个为开发团队和AI项目分配硬件资源的接口,其次是Run:ai Dev,可以帮助工程师更快地设置用于训练神经网络的编码工具。
Nvidia已经在自己的多款产品中附带了Run:ai的软件,包括Nvidia Enterprise,是Nvidia为自己数据中心GPU提供的一套开发工具,以及DGX系列AI优化型设备。Run:ai也可在DGX Cloud上使用,并且通过该产品,企业可以访问主流公有云中的Nvidia AI设备。
Bjorlin表示,“在可预见的未来”,Nvidia将继续在当前定价模式下提供Run:ai的工具,与此同时,Nvidia将发布该软件的增强功能,重点关注有助于优化DGX云环境的功能。
Bjorlin详细介绍道:“客户可以期望他们将受益于更好的GPU利用率、改进的GPU基础设施管理以及开放架构带来的更高灵活性。”
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。