至顶网服务器频道 07月06日 新闻消息: 7月4-5日,百度AI开发者大会(Baidu Create 2018)在北京举行,这是全球首个聚焦AI的开发者大会,也是百度AI产业生态的集中展示。浪潮作为百度计算基础架构领域重要合作伙伴和AI生态的重要成员参与此次大会,并在大会上展示了三款不同规模的AI基础架构平台方案,其中AI服务器AGX-2支持NVIDIA最新的Volta架构,配置32GB内存的NVIDIA? Tesla? V100 GPU加速器,其内存容量比上一版产品实现了翻倍。规模最大的SR-AI整机柜服务器(百度代号X-Man)是浪潮与百度联合研发的超大规模AI计算集群,可支持64块GPU。具有很强灵活性和扩展性的高性能GPU AI计算产品浪潮GX4,能够很好的适应不同规模的深度学习模型训练和线上推理的需求以及不同类型AI应用对底层架构的要求。
2017年百度公布了完整的AI开放生态战略,通过开放战略构建起强有竞争力的AI生态。浪潮作为领先的IT基础设施供应商,为BAT提供AI计算系统方案占90%以上。
三款产品覆盖全部用户需求
浪潮此次展示的AI平台主要是AGX-2、GX4和SR-AI三款方案,可以有效地覆盖不同规模的AI线下训练应用。
SR-AI是规模最大的线下训练方案,这款产品符合最新的天蝎2.5标准,适合于超大规模云数据中心部署,最大支持64块GPU,可满足千亿样本、万亿参数级别的超大规模模型训练需求,非常适合于AI方案开发商、服务提供商等AI专业用户。
更重要的是,这也是全球第一个将PCIe Fabric引入AI应用的产品,打破GPU和CPU的物理耦合,实现了池化,两类资源通过PCIe switch灵活搭配,可以灵活扩展,相对于传统的GPU服务器,这是种颠覆式的创新,带来了高密度、低延迟、易扩展等优势。这款产品在百度实际业务的测试中显示,SR-AI相比传统的AI方案性能提高5-10倍。
另一款GX4是专用的GPU扩展模块,高度为2U,可扩展4块GPU,通过PCI-E X16的接口接入服务器,单台服务器最大可连接4台GX4,形成16块GPU的AI训练平台,这种方案不仅可以将GPU之间的通信延迟降低50%以上,而且节省了交换机等辅助设备,可有效降低整体采购成本,16卡方案相比传统方案硬件采购成本可节省10万以上。
最强AI服务器AGX-2,计算性能提升高达40%
AGX-2是目前性能密度比最高的AI计算平台,2U高度可扩展8块GPU,可以搭建AI训练集群,也可以作为中小规模AI的单机训练平台,通用性非常好。目前已经在中国移动咪咕,今日头条等互联网、金融、交通等行业广泛应用。
援引浪潮实测数据,搭载8颗配置32G HBM2高速缓存Tesla V100 GPU的AGX-2在AI训练上实现了计算性能的进一步提升。新产品在模型训练的Batch_Size(批尺寸)设置拥有更大的弹性空间,有效解决深度学习线下训练中存在的内存限制问题,更好应对大数据集或高清图像文件的处理瓶颈,帮助计算性能提升可高达40%以上。同时,AGX-2具备拓扑的灵活性可支持NVIDIA NVLink和PCIe两种GPU互联方案,采用NVIDIA NVLink时可提供GPU间高带宽低延迟互联,以及高达300GB/s的吞吐量,而Geforce1080 基于PCIE3带宽仅为16GB/s。而在某客户的人脸识别线下训练场景中,浪潮提供的AGX-2+V100平台,通过性能优化实现比Geforce 1080Ti接近4倍的训练速度提升。
浪潮与百度,AI商业化的黄金搭档
全球AI产业面临的最大问题是如何将AI与具体应用结合起来,也就是AI商业化落地。IDC认为,人类正开始全面迈入人工智能时代,无论是高科技产品还是传统产品,都将嵌入人工智能技术。"人工智能+"将继"互联网+"之后,带动新一轮的经济发展。
但AI的门槛很高,对数据量、算法优化度和计算力都有着极高的要求。因此,传统产业客户希望能够以一体化方案的形式,快速搭一套高效的AI系统,避免技术、团队成为制约AI应用上线的瓶颈。为此百度与浪潮共同打造了一套AI交钥匙方案--ABC一体机,覆盖了人脸识别、智能安防、入侵检测等一系列企业AI应用场景,加快传统行业的智能化升级。
智慧计算,战略发展AI
浪潮是中国最大的AI计算平台提供商,根据IDC数据,2017年,浪潮AI服务器市场份额高达57%。而且浪潮也掌握了完整的软硬件AI平台技术,包括GPU服务器系列、管理系统AIStation、计算框架Caffe-MPI、应用特征分析系统Teye等。
AI是浪潮智慧战略的重要组成部分,也是浪潮重点发展的战略业务。目前,浪潮服务器出货量已经是中国第一、全球第三,浪潮希望通过AI、云计算等智慧计算业务的发展,在5年内成为全球最大的服务器供应商。
因此,浪潮对AI的投入一直在不断加大。2018年初,浪潮推出AI新品牌--TensorServer,并且启动了新的AI生态发展计划--代号为T,从创新、伙伴和人才三个维度入手,释放AI计算力的核心价值与能力,赋能企业在人工智能时代拥有坚实可靠的基础架构支撑。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。