至顶网服务器频道 07月06日 新闻消息: 7月4-5日,百度AI开发者大会(Baidu Create 2018)在北京举行,这是全球首个聚焦AI的开发者大会,也是百度AI产业生态的集中展示。浪潮作为百度计算基础架构领域重要合作伙伴和AI生态的重要成员参与此次大会,并在大会上展示了三款不同规模的AI基础架构平台方案,其中AI服务器AGX-2支持NVIDIA最新的Volta架构,配置32GB内存的NVIDIA? Tesla? V100 GPU加速器,其内存容量比上一版产品实现了翻倍。规模最大的SR-AI整机柜服务器(百度代号X-Man)是浪潮与百度联合研发的超大规模AI计算集群,可支持64块GPU。具有很强灵活性和扩展性的高性能GPU AI计算产品浪潮GX4,能够很好的适应不同规模的深度学习模型训练和线上推理的需求以及不同类型AI应用对底层架构的要求。
2017年百度公布了完整的AI开放生态战略,通过开放战略构建起强有竞争力的AI生态。浪潮作为领先的IT基础设施供应商,为BAT提供AI计算系统方案占90%以上。
三款产品覆盖全部用户需求
浪潮此次展示的AI平台主要是AGX-2、GX4和SR-AI三款方案,可以有效地覆盖不同规模的AI线下训练应用。
SR-AI是规模最大的线下训练方案,这款产品符合最新的天蝎2.5标准,适合于超大规模云数据中心部署,最大支持64块GPU,可满足千亿样本、万亿参数级别的超大规模模型训练需求,非常适合于AI方案开发商、服务提供商等AI专业用户。
更重要的是,这也是全球第一个将PCIe Fabric引入AI应用的产品,打破GPU和CPU的物理耦合,实现了池化,两类资源通过PCIe switch灵活搭配,可以灵活扩展,相对于传统的GPU服务器,这是种颠覆式的创新,带来了高密度、低延迟、易扩展等优势。这款产品在百度实际业务的测试中显示,SR-AI相比传统的AI方案性能提高5-10倍。
另一款GX4是专用的GPU扩展模块,高度为2U,可扩展4块GPU,通过PCI-E X16的接口接入服务器,单台服务器最大可连接4台GX4,形成16块GPU的AI训练平台,这种方案不仅可以将GPU之间的通信延迟降低50%以上,而且节省了交换机等辅助设备,可有效降低整体采购成本,16卡方案相比传统方案硬件采购成本可节省10万以上。
最强AI服务器AGX-2,计算性能提升高达40%
AGX-2是目前性能密度比最高的AI计算平台,2U高度可扩展8块GPU,可以搭建AI训练集群,也可以作为中小规模AI的单机训练平台,通用性非常好。目前已经在中国移动咪咕,今日头条等互联网、金融、交通等行业广泛应用。
援引浪潮实测数据,搭载8颗配置32G HBM2高速缓存Tesla V100 GPU的AGX-2在AI训练上实现了计算性能的进一步提升。新产品在模型训练的Batch_Size(批尺寸)设置拥有更大的弹性空间,有效解决深度学习线下训练中存在的内存限制问题,更好应对大数据集或高清图像文件的处理瓶颈,帮助计算性能提升可高达40%以上。同时,AGX-2具备拓扑的灵活性可支持NVIDIA NVLink和PCIe两种GPU互联方案,采用NVIDIA NVLink时可提供GPU间高带宽低延迟互联,以及高达300GB/s的吞吐量,而Geforce1080 基于PCIE3带宽仅为16GB/s。而在某客户的人脸识别线下训练场景中,浪潮提供的AGX-2+V100平台,通过性能优化实现比Geforce 1080Ti接近4倍的训练速度提升。
浪潮与百度,AI商业化的黄金搭档
全球AI产业面临的最大问题是如何将AI与具体应用结合起来,也就是AI商业化落地。IDC认为,人类正开始全面迈入人工智能时代,无论是高科技产品还是传统产品,都将嵌入人工智能技术。"人工智能+"将继"互联网+"之后,带动新一轮的经济发展。
但AI的门槛很高,对数据量、算法优化度和计算力都有着极高的要求。因此,传统产业客户希望能够以一体化方案的形式,快速搭一套高效的AI系统,避免技术、团队成为制约AI应用上线的瓶颈。为此百度与浪潮共同打造了一套AI交钥匙方案--ABC一体机,覆盖了人脸识别、智能安防、入侵检测等一系列企业AI应用场景,加快传统行业的智能化升级。
智慧计算,战略发展AI
浪潮是中国最大的AI计算平台提供商,根据IDC数据,2017年,浪潮AI服务器市场份额高达57%。而且浪潮也掌握了完整的软硬件AI平台技术,包括GPU服务器系列、管理系统AIStation、计算框架Caffe-MPI、应用特征分析系统Teye等。
AI是浪潮智慧战略的重要组成部分,也是浪潮重点发展的战略业务。目前,浪潮服务器出货量已经是中国第一、全球第三,浪潮希望通过AI、云计算等智慧计算业务的发展,在5年内成为全球最大的服务器供应商。
因此,浪潮对AI的投入一直在不断加大。2018年初,浪潮推出AI新品牌--TensorServer,并且启动了新的AI生态发展计划--代号为T,从创新、伙伴和人才三个维度入手,释放AI计算力的核心价值与能力,赋能企业在人工智能时代拥有坚实可靠的基础架构支撑。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。