随着工业电子信息产业的发展,高性能计算已经逐步由单机处理逐渐发展至集群化,很多企业存在自建高性能计算集群的需求。但在实际生产及使用方面,仍存在诸多方面的问题,例如集群搭建和维护工作繁重,需要投入很多物力和人力,使企业无法全力聚焦在主要业务上。另外,或硬件设备更新迭代速度快,计算量快速膨胀,新技术层出不穷,初期规划无法适应新的业务需求。因此,充分借用云端的集群管理能力,成为越来越多客户的高性价比选择。
针对科学计算、基因工程、气象电力、生物医药、工程制造等高算力场景, 近期,UCloud推出了全新升级的高性能计算集群,并新增独占集群管理功能,为高算力业务场景下的客户提供便捷高效的集群管理服务。
针对用户需求,支持独占集群与共享集群
EPC高性能计算集群集成UCloud的计算、存储、网络等资源,为客户提供便捷管理、可弹性伸缩的高性能计算服务。目前EPC分为独占集群和共享集群两种形态:
独占集群为客户创建的私有集群,客户可独占集群内的所有算力资源,自定义集群内部运行环境,自主安装系统应用。也是本次产品升级的重点,下面会详细介绍一下。同时提供可多点挂载的共享存储,同项目下的所有计算节点共享存储空间,在满足客户多节点共享数据的需求外,也一定程度上减低客户的存储成本,做到真正的降本增效。
共享集群则为所有用户共享的算力的计算集群,客户无需关注资源的调度和管理,仅根据自身需求,提交计算任务即可。
独占集群
独占集群模式下,UCloud提供两种资源部署方式,一种是集群部署,一种是节点组。在集群部署模式下,UCloud为客户提供作业调度软件的自动化部署功能,客户仅需要根据自身的实际业务需要来选择计算资源配置,磁盘以及网络资源,系统即可为客户一键创建高性能计算集群。
客户可以通过登录节点提交和分配计算任务,在计算节点执行计算任务。产品架构如下图所示:
在节点组部署模式下,UCloud为客户提供批量创建计算节点的能力,用户可一次性选择创建单台或者多台计算节点,同步配置磁盘、网络,提供部分科研场景下的常用软件,无需关注基础的环境搭建,开机即可运算,科研效率大大提升。
共享存储
EPC高性能集群提供了支持多点挂载的共享存储,同项目下的所有节点资源均可挂载在同一块共享存储上,可极大满足客户多计算节点共享数据源的需求。
当客户创建集群或者计算节点时,节点自动挂载共享存储,支持在线扩容,满足客户数据弹性存储需求。同时提供FTP文件上传下载功能,外网带宽最高可达100M。同时,EPC共享存储支持SMB协议和NFS协议,可满足不同客户Windows和Linux系统的使用需求。
提升科研算力,具备五项优势
资源丰富,弹性扩容
依托于UCloud公有云海量计算资源,可满足客户业务高峰时大量资源需求。
灵活部署
支持多种实例规格,满足科学计算、基因测序、建模仿真等多种应用类别。
提供资源管理、作业调度服务
提供自动化部署slurm调度器的能力,一键部署集群,支持集群任务调度。
支持共享存储
提供支持多点挂载的共享集群,创建时自动挂载。
计费方式灵活
支持包年包月、小时计费多种计费方式,客户按需使用计算资源服务,在满足业务需求同时,有效节约成本。
EPC助力多领域科研场景降本增效
生物信息领域
生物信息领域涵盖基因测序、基因分型、精准医学、个性化治疗等多种研究领域。上海某大学课题组在使用冷冻电镜技术对病毒蛋白质样本成像和重建实验中,利用UCloud EPC服务,通过RELION软件的GPU加速功能,加速病毒蛋白质的三维结构的重建(对几十万张2D或3D投影图片进行分析、组装和优化)。
分子模拟领域
分子模拟领域研究光谱预测、电子密度分布等物质表征模拟需求,也支持蛋白质-药物配体动力学、近场动力学、碳纳米管束等计算高度密集的科学问题。浙江某大学采用UCloud EPC服务,使用Gromacs软件对膳食卵清蛋白与叶酸的相互作用机理进行了研究,大幅提升研究效率。
人工智能领域
人工智能涵盖深度学习和强化学习,通过算法模型训练,应用于计算机视觉、自然语言处理、推荐引擎等场景。安徽某学院借助UCloud EPC服务,研究基于PyTorch的深度学习模型,进行心电公共数据端到端的分类,整体模型训练的效率得到极大的提升。
好文章,需要你的鼓励
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AI虽具备变革企业洞察力的潜力,但成功依赖于数据质量。大多数AI项目失败源于数据混乱分散而非算法局限。谷歌BigQuery云数据AI平台打破数据孤岛,简化治理,加速企业AI应用。通过AI自动化数据处理,实现实时分析,并与Vertex AI深度集成,使企业能够高效处理结构化和非结构化数据,将智能商业转型从愿景变为现实。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。