HPE今天宣布收购开源软件平台初创公司Determined AI,该公司的平台可以将机器学习算法的训练速度提高数十倍。

在当前超级计算机和服务器买家日益重视AI技术的背景下,此次收购将有助于提升HPE的机器学习能力。
Determined AI总部位于美国旧金山,创立于2017年,已经累计融资1300万美元,投资方包括Alphabet旗下GV基金、LG Electronics和CRV。
开发者在编写完新的机器学习算法后,会通过处理大量训练数据来训练算法的计算能力,这个过程有助于提高人工智能软件的准确性和速度。随着近年来机器学习算法中人工神经元的数量增加,训练过程中所需的硬件数量也在随之增加。
Determined AI的平台可以更简化地设置构建复杂AI算法所需的大量硬件。该平台启动服务器之后,会在这些服务器之间创建网络连接,使其可以协调工作并在设备之间分配工作负载。Determined AI采用了容错配置设置环境,即使其中一台服务器掉线,AI算法也可以继续进行训练。
Determined AI的平台可以加快机器学习项目的速度,因为以前设置AI训练环境通常需要进行手动操作,使工程师不得不把宝贵的时间花在一些繁杂的任务上,例如确保启动的服务器数量不超过公司分配给该项目的基础设施数量。此外,在缺乏容错功能(例如Determined AI提供的容错功能)的情况下,服务器宕机可能需要工程师从头开始重新训练,这会进一步增加项目持续的时间。
Determined AI承诺加速AI开发的另一种方式,是在软件层面优化训练过程本身。为此,Determined AI的平台采用了Horovod的定制版本,Horovod是Uber公司最初于2017年发布的开源AI训练框架。Determined AI表示,该版本框架在某些情况下可以将训练速度提高数十倍,项目持续时间从几天缩短到几个小时。
Determined AI所实施的Horovod通过提高所谓的扩展效率来进行加速。工程师通过添加更多服务器来扩展AI训练环境,由于各种技术因素,每个服务器提供的计算能力会同步减少。Horovod可以实现非常高的扩展效率,高达90%,这意味着随着AI训练环境的扩展,只有10%的服务器处理能力会损失掉。
HPE将利用Determined AI的技术来提升自身的超级计算能力,为此HPE计划将Determined AI并入高性能计算和关键任务解决方案部门(包括其超级计算机业务)。
这次收购正值有越来越多的超级计算机被用于运行机器学习工作负载,这个趋势反映在越来越多即将上线的新系统都将采用GPU。通过收购Determined AI,HPE将可以用超级计算硬件加上机器学习软件,为那些运行AI工作负载的高性能计算客户提供更好的支持。
此次收购另一个值得注意的方面,是Determined AI的平台是可以运行在云端的。这一点很重要,因为与其他本地应用一样,超级计算工作负载正越来越多地迁移到云中。特别是最近,HPE在今年4月与微软展开合作,为英国气象局在Azure数据中心设置了一套超级计算机。由于Determined AI的平台在云端和本地环境中运行性能都非常出色,因此HPE可以将其提供给越来越多的客户,把高性能计算项目带到企业网络之外的环境中。
此外Determined AI的平台也适用于HPE机器学习服务器的客户。HPE有多条配备了GPU的产品线可用于那些不需要超级计算机、但仍需要相当高本地计算能力的项目。HPE援引IDC的研究数据称,到2024年加速AI服务器市场的年增长率预计将达到38%,规模达到180亿美元。
Determined AI首席执行官Evan Sparks表示:“过去几年中,开发AI应用已经变成一件需要计算、数据和通信非常密集型的事情。通过与HPE行业领先的高性能计算和人工智能解决方案相结合,我们可以加快实现构建尖端AI应用的使命,同时显着扩大我们的客户范围。”
Determined AI以开源版本和付费版本(带有额外功能)两种形式提供自己的平台。Determined AI公司今天在其博客上表示,收购后将继续提供开源版本。此外,HPE计划继续在Determined AI开发上进行投入。
这次收购将在HPE的超级计算市场战略中发挥核心作用。为了加强自己在该领域的影响力,两年前HPE斥资13亿美元收购了超级计算机制造商Cray,后者构建了很多全球最快的高性能计算系统。
好文章,需要你的鼓励
本文揭示了AI时代CIO的七项关键行为特征,基于对多位CIO和AI专家的深度访谈。专家指出,AI精通的CIO需具备实用AI素养、战略视野和变革领导力,能将技术与业务战略对齐,建立强大数据治理基础。文章详细解析了分析型AI、生成式AI和智能体AI三大技术领域,强调数据基础的重要性,并提出CIO应从项目思维转向产品思维,通过跨职能团队实现端到端价值交付。
斯坦福大学等机构联合开发的CIFT系统首次解决了机器人"近视眼"问题,通过精确控制真实数据和合成数据的混合比例,让机器人在陌生环境中的表现提升54%以上。该系统包含多视角视频增强引擎MVAug和数据组合优化策略,能够预测数据失效的"去相干点",确保机器人学习真正重要的任务特征而非环境表象,为实用化通用机器人奠定了重要基础。
尽管苹果在AI竞赛中看似落后,但其私有云计算基础设施展现了技术优势。当行业为追赶大语言模型而降低隐私标准时,苹果坚持原则,开发出保护用户数据隐私的技术方案。谷歌最新宣布的类似实施方案验证了苹果技术路线的正确性,这可能推动其他AI实验室采用相同做法,为用户隐私带来重大胜利。
香港中文大学研究团队开发的Search-R3系统成功解决了大语言模型推理与搜索分离的问题,通过两阶段训练让AI在深度思考过程中直接生成搜索向量。该系统在多个领域测试中显著超越现有方法,特别是启用推理后性能提升明显,为AI系统设计提供了推理与搜索统一的新范式,展现了从专门化向通用化发展的重要方向。