8月30日,在2018浪潮技术与应用峰会(Inspur World 2018)上,浪潮重磅发布OpenStack AI云平台,实现了在OpenStack云平台上快速、轻松的构建AI开发能力。这一平台的推出契合了本届峰会提出的“云数赋能 智慧未来”战略构想,将云计算的灵活性与人工智能的“智慧”予以融合,从而使行业AI用户可以更加敏捷的利用开源云计算平台,高效完成各类AI研究与开发工作。
浪潮集团副总裁彭震表示:“以云计算、大数据、人工智能为代表的智慧计算,正加快驱动生产力跃升和商业模式变革,重塑社会运行结构和组织生态。在这一趋势驱动下,计算力实际上已经成为社会经济的核心生产力之一。为此,浪潮将持之以恒的发展融合架构IT基础设施,此次OpenStack AI云平台的推出,是浪潮在云+AI融合基础架构上的一次探索与实践。”
随着AI在社会生产生活各环节的渗透加速,可以预见的是AI将会快速步入到“应用繁荣期”,商业组织与科研机构的AI技术与应用研发将趋向多样化,传统的集群架构在灵活性上将难以满足未来AI开发的多元需求。因此,如何将云计算与AI融合,使得IT基础架构既能具备云的灵活性,也能保留AI所需的高性能,将成为推动AI真正成为一项社会性变革技术的重点所在。
此次浪潮发布的OpenStack AI云平台,可帮助行业AI用户快速便捷的构建CPU+GPU的弹性异构云环境,并实现对异构计算资源池的动态调度与分配,支撑数据管理、模型训练、模型部署等各类AI应用场景。通过对GPU虚拟机的支持,浪潮OpenStack AI云平台能够以多租户的形式,按需分配异构计算资源,从而实现AI敏捷开发。同时,多租户任务排队策略、资源分组优化策略、租户资源配额集均衡策略以及GPU共享策略等精细化调度策略,也进一步提高了GPU资源的利用率
高集成度进一步简化AI开发
浪潮自主开发的AIStation在集成度上有显著提升,极大的降低了AI开发难度并简化操作。一方面,AIStation内置优化的Caffe-MPI、TensorFlow-OPT等深度学习分布式框架,能够有效提高模型训练的扩展性,同时内置的高性能深度学习容器镜像针对Xeon SkyLake + Tesla GPU + 25G Ethernet环境予以深度优化,可充分发挥GPU计算性能,平均训练速度提高30%;另一方面,AIStation整合了训练数据、模型文件、计算资源,可提供多机并行训练服务和模型可视化工具,支持创建模型训练工作流,通过界面化操作极致简化AI开发人员工作流程,实现了秒速构建深度学习开发环境。
浪潮AI&HPC总经理刘军表示:“浪潮OpenStack AI云平台为用户提供了面向未来的云+AI融合基础架构,使其在开源云平台上能够简单、快速构建易用、先进、完整的AI开发环境,赋能更多行业快速利用人工智能技术进行产品服务开发、精细化管理等,将有力推动人工智能技术的商业价值实现与社会变革。”
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。