至顶网服务器频道 09月29日 新闻消息: 9月25-27日,在GTC China 2017大会上,浪潮展示了基于Tesla? V100的AI计算产品GX4 Box,成为现场的"明星"产品。浪潮的GX4的吸引人之处到底何在呢?今天,我们就来详细剖析一下这款浪潮自主创新的AI计算新品。
浪潮在GTC China 2017展出AI创新产品GX4
浪潮GX4并不是一台传统意义上的服务器产品,而是一台2U高度的AI box,其中没有CPU、内存,由4块GPU计算加速卡,扩展主板其他支撑部件组成。用户也可部署16块NVMe SSD硬盘替代计算加速卡,作为高密度热数据存储使用。
GX4承袭了浪潮SR-AI整机柜的设计理念,实现了CPU和GPU的物理解耦,使得计算加速单元能够以独立模块的形式进行灵活扩展。这种设计的好处显而易见,它能在保证高效的GPU跨节点通信效率的同时,以灵活的扩展形式敏捷支持不同级别的AI模型训练。有效降低IO冗余和系统购买成本,非常适合深度学习模型训练、科学计算、工程计算与研究领域的应用。
展区实拍浪潮GX4产品
随着训练样本量的指数级增长以及训练模型的复杂度不断提升,AI计算正面临的三大困扰。首先,不同应用需要不同硬件,带来采购和运维成本提升;其次,多机集群的延迟更高;第三,资源扩展不灵活、成本高。针对于此,GX4采用了一些创新的设计来解决这些困扰AI用户的难题。
灵活拓扑支持多类型AI应用需求
GPU与CPU计算资源的解耦和重构,让GX4拥有了更加多样的拓扑结构,可以通过灵活调整GPU拓扑,满足AI云、深度学习模型训练和线上推理等各种AI应用场景,使计算架构与上层应用更匹配,发挥出AI计算集群的最大性能。
目前,GX4可支持Balanced、Common、Cascaded三种不同的GPU拓扑结构。其中,云服务的用户需要做虚拟化,每个VM需要分配对应的GPU资源,为了保证VM的分配GPU的性能均衡性,需要采用Balance方式保证VM下GPU资源的性能均衡;Common模式和Cascaded模式均适合于深度学习模型训练使用,区别在于Common上行有两条X16链路,Cascade只有1条,但是Cascade P2P更优化,以上三种模式可以通过线缆来灵活调整拓补。
浪潮AI计算产品GX4
浪潮AI计算产品GX4能够实现极低的延迟。在传统的GPU集群中,比如单机4卡服务器组成的16卡集群,跨节点间的GPU通信会经过不同协议的转换,CPU、PCIe间的UPI或QPI以及网络的延迟,至少最早造成2us的数据传输延迟。而浪潮GX4能够实现16块GPU之间仅依赖PCI-E进行通信,延迟可降低50%以上,并且借助GPU Direct RDMA技术,使跨节点GPU与GPU实现直接的数据交互,而不再需要经由CPU的跳转,大幅降低跨节点GPU间的通信延迟,最终使GPU计算集群的延迟下降到ns级。
兼具高性价比和高扩展性
GX4组成的AI计算集群,由负责逻辑运算的SA5212M5机架式服务器和包含4块GPU卡的box组成,且单台SA5212M5能够挂接至少4台box。当业务需要更大的AI计算资源时,可以单独采购box来完成高性价比和高灵活性的扩展,最大可实现单物理集群16卡的资源扩展,单精度浮点运算能力最高可达192TFlops,成本可节省,000以上。
资源调配灵活
浪潮GX4组成的AI集群中,SA5212M5可以调用一台box中的1-4块GPU,也可以任意挂接1-4台box。当不同的业务部门有不同的配置需求时候,可以通过软件定义的形式灵活改变单物理集群的GPU卡数量,将资源调度最小颗粒度从服务器级升级为GPU卡级别。
支持多种数据中心环境
由于没有传统服务器架构中的CPU和硬盘等热源,浪潮GX4可以运行在不同的数据中心环境,并且冷风直接透过GPU散热,同样性能下功耗更低。此外,GX4 740mm的深度和传统的高密GPU服务器相比,外形更加小巧,为后部操作和维护提供足够的空间,而所有CPU和GPU通过箱子后部的线缆相连,也极大的方便计算空间的操作和运维。
总而言之,浪潮GX4是一款具有很强灵活性和扩展性的高性能GPU AI计算新品,能够很好的适应不同规模的深度学习模型训练和线上推理的需求以及不同类型AI应用对底层架构的要求,可谓是随需扩展神通广大的"金箍棒"产品。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。