HPE今天宣布收购开源软件平台初创公司Determined AI,该公司的平台可以将机器学习算法的训练速度提高数十倍。
在当前超级计算机和服务器买家日益重视AI技术的背景下,此次收购将有助于提升HPE的机器学习能力。
Determined AI总部位于美国旧金山,创立于2017年,已经累计融资1300万美元,投资方包括Alphabet旗下GV基金、LG Electronics和CRV。
开发者在编写完新的机器学习算法后,会通过处理大量训练数据来训练算法的计算能力,这个过程有助于提高人工智能软件的准确性和速度。随着近年来机器学习算法中人工神经元的数量增加,训练过程中所需的硬件数量也在随之增加。
Determined AI的平台可以更简化地设置构建复杂AI算法所需的大量硬件。该平台启动服务器之后,会在这些服务器之间创建网络连接,使其可以协调工作并在设备之间分配工作负载。Determined AI采用了容错配置设置环境,即使其中一台服务器掉线,AI算法也可以继续进行训练。
Determined AI的平台可以加快机器学习项目的速度,因为以前设置AI训练环境通常需要进行手动操作,使工程师不得不把宝贵的时间花在一些繁杂的任务上,例如确保启动的服务器数量不超过公司分配给该项目的基础设施数量。此外,在缺乏容错功能(例如Determined AI提供的容错功能)的情况下,服务器宕机可能需要工程师从头开始重新训练,这会进一步增加项目持续的时间。
Determined AI承诺加速AI开发的另一种方式,是在软件层面优化训练过程本身。为此,Determined AI的平台采用了Horovod的定制版本,Horovod是Uber公司最初于2017年发布的开源AI训练框架。Determined AI表示,该版本框架在某些情况下可以将训练速度提高数十倍,项目持续时间从几天缩短到几个小时。
Determined AI所实施的Horovod通过提高所谓的扩展效率来进行加速。工程师通过添加更多服务器来扩展AI训练环境,由于各种技术因素,每个服务器提供的计算能力会同步减少。Horovod可以实现非常高的扩展效率,高达90%,这意味着随着AI训练环境的扩展,只有10%的服务器处理能力会损失掉。
HPE将利用Determined AI的技术来提升自身的超级计算能力,为此HPE计划将Determined AI并入高性能计算和关键任务解决方案部门(包括其超级计算机业务)。
这次收购正值有越来越多的超级计算机被用于运行机器学习工作负载,这个趋势反映在越来越多即将上线的新系统都将采用GPU。通过收购Determined AI,HPE将可以用超级计算硬件加上机器学习软件,为那些运行AI工作负载的高性能计算客户提供更好的支持。
此次收购另一个值得注意的方面,是Determined AI的平台是可以运行在云端的。这一点很重要,因为与其他本地应用一样,超级计算工作负载正越来越多地迁移到云中。特别是最近,HPE在今年4月与微软展开合作,为英国气象局在Azure数据中心设置了一套超级计算机。由于Determined AI的平台在云端和本地环境中运行性能都非常出色,因此HPE可以将其提供给越来越多的客户,把高性能计算项目带到企业网络之外的环境中。
此外Determined AI的平台也适用于HPE机器学习服务器的客户。HPE有多条配备了GPU的产品线可用于那些不需要超级计算机、但仍需要相当高本地计算能力的项目。HPE援引IDC的研究数据称,到2024年加速AI服务器市场的年增长率预计将达到38%,规模达到180亿美元。
Determined AI首席执行官Evan Sparks表示:“过去几年中,开发AI应用已经变成一件需要计算、数据和通信非常密集型的事情。通过与HPE行业领先的高性能计算和人工智能解决方案相结合,我们可以加快实现构建尖端AI应用的使命,同时显着扩大我们的客户范围。”
Determined AI以开源版本和付费版本(带有额外功能)两种形式提供自己的平台。Determined AI公司今天在其博客上表示,收购后将继续提供开源版本。此外,HPE计划继续在Determined AI开发上进行投入。
这次收购将在HPE的超级计算市场战略中发挥核心作用。为了加强自己在该领域的影响力,两年前HPE斥资13亿美元收购了超级计算机制造商Cray,后者构建了很多全球最快的高性能计算系统。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。