当前,人工智能蓬勃发展,但由于人工智能涉及诸多前沿技术及应用领域,导致实施人工智能的成本较大,高技术门槛为行业从业者带来了挑战。作为国内领先的IT信息技术厂商,近年来曙光持续加大在人工智能相关领域的研发投入力度,致力于为客户业务发展提供强大技术支撑。2018年6月份,由曙光自主研发的深度学习一体化应用服务平台SothisAI荣获国际数字商业创新协会2018ECIAwards金奖。
针对目前人工智能市场最突出的计算服务成本、研发技术门槛两个痛点,同时聚焦图像识别、语音识别、自然语言处理、智能驾驶、科研教育等应用方向,曙光正式对外发布SothisAI2.0版本,进一步为用户优化容器化的集群调度以及深度学习私有云服务方案,通过SothisAI2.0为用户提供卓越的解决方案,以帮助用户将更多的精力集中到垂直应用的工作领域。
据介绍,SothisAI2.0具有高效稳定、弹性灵活、专注人工智能等特性,为用户提供更为快速高效的深度学习切入方式,并开放二次开发接口,可供用户根据自身需求定制特化应用服务。
SothisAI2.0采用Slurm、K8S双调度引擎调度融合容器弹性扩展技术的方式,实现了资源的动态高效调度,应用的快速分发,和进程级隔离。支持多种编译环境,如CUDA、anaconda等,及常见深度学习框架,如Caffe、TensorFlow、PyTorch等。提供了丰富的数据集和典型网络模型,同时支持内容分享和应用发布功能,协助构建平台微生态。
基于容器技术,应用容器化,应用迁移方便快捷,分布式集群最大化提高资源使用率,应用集群化,让应用更强大、可扩展、支持高并发,资源动态弹性扩展,实现可视化管理和操控。容器镜像仓库支持公有仓库、私有仓库,方便镜像管理、迁移扩展。提供调度、编排、服务发现,同时还支持节点监控、应用健康检查、弹性扩容等功能。
提供应用发布订阅、数据代码分享等功能,协助平台用户提高组间协作效率,分享研发成果,精调模型参数。对于自定义环境或框架还可采用自由容器的方式进行环境构建,并通过镜像的固化和分享实现自助发布。
曙光SothisAI目前支持深度学习领域主流的Caffe和TensorFlow等框架,实现从系统到数学库再到上层框架的多层深度学习开发环境一键部署。并有图形化的Web界面和命令行形式的SSH、Jupyter接入方式供用户选择。
面向不同应用行业提供丰富的典型数据集支持,如ImageNet、MNIST、MTVL等。同时支持用户数据集共享功能,实现平台数据集仓库的用户动态实时更新。
SothisAI2.0完整覆盖深度学习训练和容器管理全流程,提供推理服务环境,为用户提供流畅的应用开发体验和一站式深度学习服务,帮助用户加速算法优化,实现产品的快速迭代和最终落地。
目前,SothisAI平台已在多所高校、研究中心以及超算中心部署使用。未来曙光将继续围绕领先技术,对产品及服务进行持续迭代,释放人工智能所需计算力,满足更加复杂、个性化业务发展需求,推动人工智能行业发展。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。