一周前,IBM在Think 2018上做了 一系列人工智能相关的公告,现在HPE也紧随其后想要抓住人工智能这个IT业界最热门的趋势。
HPE今天宣布推出旨在帮助客户加快机器和深度学习的硬件、垂直市场软件和培训服务。
硬件部分是HPE Apollo 6500 Gen10,据称这是专为深度学习而设计的高性能计算系统,比之前几代在模型训练速度方面快了3倍。
模型训练是机器学习过程中的一个关键部分,创建一个针对算法的行动计划,用于分析大量的数据。深度学习是机器学习的一种,是试图模仿人类大脑的功能。该系统与IBM最近推出的基于最新Power9处理器的系统有些类似。
该系统配备了Intel Xeon Scalable处理器,主频为3GHz,最多28个核心,每台服务器8个GPU,每秒可为单精度计算任务提供高达125万亿次浮点运算。它配备了PCIe背板或Nvidia的NVLink 2互连,用于GPU与GPU之间的高速通信。
HPE表示,高带宽、低延迟网络适配器与GPU加速器紧密耦合,最大限度利用带宽。每个系统最多支持3 TB内存和16个SAS或者SATA SSD,其中四个可以是NVMe驱动器。 HPE在声明中表示:“HPE Apollo 6500 Gen10系统最适合于解决深度学习模型训练中最重要的步骤。”
HPE Digital Prescriptive Maintenance被HPE成为首个人工智能优化的行业解决方案。它通过预测性维护自动预防问题的发生,从而延长工业设备的使用寿命,同时减少停机时间。HPE表示:“预测性维护检测工业设备何时可能出现故障,规定性维护预测、建议并自动采取正确的行动,在问题导致故障发生之前解决问题。”
该套件结合了来自HPE PointNext服务部门的教育和实施服务,以及来自HPE及其合作伙伴的机器学习和数据分析软件,运行在基于 HPE硬件的、以物联网为驱动的数据湖上。该服务包括实时和批量数据、机器学习、基于分析的异常检测、设备发生故障时的数据保护、指导维护步骤和自动化工作流程,无论是在网络边缘还是在网络中心。
最后,HPE Artificial Intelligence Transformation Workshop是一个针对商业领导者的、针对与公司业务相匹配的用例的人工智能全新定制介绍。HPE表示,参与者将“发现需要关注的领域,并制订一个高层次的计划,其中考虑了与你需求相关的机会、障碍和关键成功因素”。该计划还包括如何从实验转向生产方面的建议。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。