至顶网服务器频道 07月06日 新闻消息: 7月4-5日,百度AI开发者大会(Baidu Create 2018)在北京举行,这是全球首个聚焦AI的开发者大会,也是百度AI产业生态的集中展示。浪潮作为百度计算基础架构领域重要合作伙伴和AI生态的重要成员参与此次大会,并在大会上展示了三款不同规模的AI基础架构平台方案,其中AI服务器AGX-2支持NVIDIA最新的Volta架构,配置32GB内存的NVIDIA? Tesla? V100 GPU加速器,其内存容量比上一版产品实现了翻倍。规模最大的SR-AI整机柜服务器(百度代号X-Man)是浪潮与百度联合研发的超大规模AI计算集群,可支持64块GPU。具有很强灵活性和扩展性的高性能GPU AI计算产品浪潮GX4,能够很好的适应不同规模的深度学习模型训练和线上推理的需求以及不同类型AI应用对底层架构的要求。
2017年百度公布了完整的AI开放生态战略,通过开放战略构建起强有竞争力的AI生态。浪潮作为领先的IT基础设施供应商,为BAT提供AI计算系统方案占90%以上。
三款产品覆盖全部用户需求
浪潮此次展示的AI平台主要是AGX-2、GX4和SR-AI三款方案,可以有效地覆盖不同规模的AI线下训练应用。
SR-AI是规模最大的线下训练方案,这款产品符合最新的天蝎2.5标准,适合于超大规模云数据中心部署,最大支持64块GPU,可满足千亿样本、万亿参数级别的超大规模模型训练需求,非常适合于AI方案开发商、服务提供商等AI专业用户。
更重要的是,这也是全球第一个将PCIe Fabric引入AI应用的产品,打破GPU和CPU的物理耦合,实现了池化,两类资源通过PCIe switch灵活搭配,可以灵活扩展,相对于传统的GPU服务器,这是种颠覆式的创新,带来了高密度、低延迟、易扩展等优势。这款产品在百度实际业务的测试中显示,SR-AI相比传统的AI方案性能提高5-10倍。
另一款GX4是专用的GPU扩展模块,高度为2U,可扩展4块GPU,通过PCI-E X16的接口接入服务器,单台服务器最大可连接4台GX4,形成16块GPU的AI训练平台,这种方案不仅可以将GPU之间的通信延迟降低50%以上,而且节省了交换机等辅助设备,可有效降低整体采购成本,16卡方案相比传统方案硬件采购成本可节省10万以上。
最强AI服务器AGX-2,计算性能提升高达40%
AGX-2是目前性能密度比最高的AI计算平台,2U高度可扩展8块GPU,可以搭建AI训练集群,也可以作为中小规模AI的单机训练平台,通用性非常好。目前已经在中国移动咪咕,今日头条等互联网、金融、交通等行业广泛应用。
援引浪潮实测数据,搭载8颗配置32G HBM2高速缓存Tesla V100 GPU的AGX-2在AI训练上实现了计算性能的进一步提升。新产品在模型训练的Batch_Size(批尺寸)设置拥有更大的弹性空间,有效解决深度学习线下训练中存在的内存限制问题,更好应对大数据集或高清图像文件的处理瓶颈,帮助计算性能提升可高达40%以上。同时,AGX-2具备拓扑的灵活性可支持NVIDIA NVLink和PCIe两种GPU互联方案,采用NVIDIA NVLink时可提供GPU间高带宽低延迟互联,以及高达300GB/s的吞吐量,而Geforce1080 基于PCIE3带宽仅为16GB/s。而在某客户的人脸识别线下训练场景中,浪潮提供的AGX-2+V100平台,通过性能优化实现比Geforce 1080Ti接近4倍的训练速度提升。
浪潮与百度,AI商业化的黄金搭档
全球AI产业面临的最大问题是如何将AI与具体应用结合起来,也就是AI商业化落地。IDC认为,人类正开始全面迈入人工智能时代,无论是高科技产品还是传统产品,都将嵌入人工智能技术。"人工智能+"将继"互联网+"之后,带动新一轮的经济发展。
但AI的门槛很高,对数据量、算法优化度和计算力都有着极高的要求。因此,传统产业客户希望能够以一体化方案的形式,快速搭一套高效的AI系统,避免技术、团队成为制约AI应用上线的瓶颈。为此百度与浪潮共同打造了一套AI交钥匙方案--ABC一体机,覆盖了人脸识别、智能安防、入侵检测等一系列企业AI应用场景,加快传统行业的智能化升级。
智慧计算,战略发展AI
浪潮是中国最大的AI计算平台提供商,根据IDC数据,2017年,浪潮AI服务器市场份额高达57%。而且浪潮也掌握了完整的软硬件AI平台技术,包括GPU服务器系列、管理系统AIStation、计算框架Caffe-MPI、应用特征分析系统Teye等。
AI是浪潮智慧战略的重要组成部分,也是浪潮重点发展的战略业务。目前,浪潮服务器出货量已经是中国第一、全球第三,浪潮希望通过AI、云计算等智慧计算业务的发展,在5年内成为全球最大的服务器供应商。
因此,浪潮对AI的投入一直在不断加大。2018年初,浪潮推出AI新品牌--TensorServer,并且启动了新的AI生态发展计划--代号为T,从创新、伙伴和人才三个维度入手,释放AI计算力的核心价值与能力,赋能企业在人工智能时代拥有坚实可靠的基础架构支撑。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。