至顶网服务器频道 10月31日 新闻消息(文/邹大斌): AI是当下炙手可热的话题,其热度早已超过了IT行业,而HPC是一个老话题,行业外的人很少会关注。这两者有关系吗?答案是肯定的,至少在HPC行业内的人看来是的,两者都是计算密集型应用,本质上是一样的,也是相通的。实际上,在今年举办的HPC China 2018大会上,如何让HPC更好地支持AI成为嘉宾们探讨最多的话题之一。
随着机器学习技术的成熟,AI得到了越来越广泛的应用。英特尔院士、英特尔HPC战略总监Mark Seager在大会主题演讲中透露了一组数据,人工智能市场将从2017年的25亿美元成长为2022年的80-100亿美元,年复合增长率达到30%。高速成长的AI市场凸显对计算力的需求,而现有IT基础架构甚至整个AI应用生态都并不能很好地满足AI市场的需求。
众所周知,HPC也是面向高计算密度应用场景,其强大的计算力能否用来支持AI对计算力的需求呢?Mark Seager表示,HPC是完全可以用于AI应用的,包括训练和推理都可以发挥作用。比如,在计算领域有性能越来越强大的新至强可扩展处理器,在网络方面有高速通信网卡OPA,在存储方面有创新的傲腾,它们都可以让AI应用受益。
英特尔院士、英特尔HPC战略总监Mark Seager在HPC China 2018大会演讲
不过,HPC专家指出,传统HPC在架构、计算模型以及相关软件上都还需要优化,目前HPC专家正在研究这一问题。国家并行计算机工程技术研究中心陈左宁院士在HPC China 2018大会做主题演讲时就表示,HPC应该为AI提供更多支持,HPC与AI完全能够在云端进行融合,他们也正在进行这方面的研究。
英特尔高性能计算方案和销售总经理 Nash Palaniswamy在接受至顶网记者采访时也表达了同样的观点。“现在主流的人工智能算法本质上是矩阵乘,这在HPC的环境里已经使用大概几十年了,只不过现在我们有专门硬件来进行矩阵乘的加速,但是这个方式也是一个非常传统的HPC的方式。”他说。
作为间接的证据,他介绍说,目前在很多厂商AI业务都归到HPC部门,比如联想和HP等。
不过,一个不可回避的现实是,今天在大多数AI实际应用中似乎与HPC关联不大,不少AI都建起了一个新的硬件平台。背后的原因在于这两者在计算时具有明显不同的特征,传统HPC目前还不能很好地支持AI。根据陈左宁院士的说法,传统HPC(比如数值模拟)和AI(如CNN)在算法方面还是存在很多区别的,比如传统HPC精度要求高而AI要求低,传统HPC计算访存比低而AI高,传统HPC并行度高而AI并行度低等等,这些差别导致传统HPC在应用于典型AI场景时并不能很好地发挥强大的计算能力。
而这个问题的解决需要从整个生态上着手。陈左宁院士认为,AI应用在生态面临这些挑战:
硬件架构越来越多,很难充分发挥性能,用户需要对硬件细节和应用算法非常了解;人工智能框架类型越来越多,很多AI框架还在剧烈变化;缺乏高效好用的调试和调优工具,调优工作量大;部分应用场景实时训练需求强烈(比如车载应用场景);计算节点间、计算节点内通信效率较低等等。
无论是在传统HPC还是在AI应用,英特尔都是积极的推动者,也是HPC和AI生态系统中最为重要的厂商之一,而英特尔正大力推动这两者的融合。实际上,英特尔一直以来都对HPC的高度,而随着英特尔将自己定位为一个以数据为中心的公司之后,AI自然地成为公司的一个核心战略。
“今天的英特尔已经从之前的以PC为中心转向以数据为中心的战略。具体到数据中心领域,我们的目标是不管是计算、存储还是网络,都要降低成本同时增强整个系统的性能,也就是要移动得更快、存储得更多、所有数据类型都能处理。”Nash Palaniswamy表示。
数据显示,在从2006年-2017年的10多年时间内,计算整体成本降低了56%,存储降低了77%,但与此同时性能提升了41倍,这其中与英特尔的努力显然密不可分。
Nash Palaniswamy透露,英特尔最新一代至强可扩展处理器Cascade Lake会在不久面世,该处理器会提供更棒的性能,同时还会增加一些人工智能深度学习加速器功能在里面,从而极大程度地提升INT8的性能。同样,傲腾数据中心级持久内存也是一个非常重要的创新,单根最大可以支持到512G,可以插在内存插槽。
英特尔在这些方面的改进让HPC和AI应用都能受益。同时,英特尔还一直致力于帮助用户建立一个一致性的平台,无论是HPC还是AI应用不需要切换平台,从而简化IT基础设施,降低成本。这是英特尔在新一代至强中集成英特尔深度学习加速器DL Boost的原因之一。
“借助DL Boost做INT8运算时,最高可以提升大概11倍性能。在这个新功能帮助下进行单纯的训练运算时,最多可以做到1.4倍的性能提升。对一些普通用户来讲,其实没有这么多的训练需求完全可以放到英特尔这个平台上完成。” Nash Palaniswamy表示。
除了提升IT基础设施方面的性能和降低成本外,丰富和改进相关配套软件也是英特尔工作重点。近年来,随着AI的普及,英特尔不断丰富深度学习/机器学习的数学函数库以及数据分析加速库,比如,英特尔发布的面向各种设备和框架的深度神经网络模型开源编译器nGraph,扩展了深度学习模型的适用性和可移植性。
另一方面,英特尔也非常重视市场推广和人才培养上。在HPC CHINA 2018 大会期间,发布了“全国并行应用挑战赛”(Parallel Application Challenge 简称PAC)的获奖名单,该大赛由中国计算机学会高性能计算专业委员会指导、教育部计算机类专业教学指导委员会联合英特尔(中国)有限公司、北京并行科技股份有限公司共同倡导发起,中科院计算机网络信息中心等单位支持。PAC大赛采用英特尔至强处理器作为推荐平台,由英特尔(中国)有限公司提供围绕并行计算以及英特尔至强的相关培训内容。大赛选择华为云EI大数据MRS服务作为大赛结果评选的独家评审平台,华为云EI大数据MRS服务具有强大的AI能力开放性,能够快速集成Analytics Zoo框架,为大赛提供一站式的大赛作品统一运行平台。
“就英特尔的战略而言,我们关注的是以数据为中心的基础设施的更新和创新,而不只是AI、HPC,同时也有像BigDL、nGraph等相关技术。我们希望通过我们的持续性投入可以让我们的用户有更好用的产品,拥有更低的TCO。” Nash Palaniswamy说。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。