当科技发展愈发迅速,生产方式与生活都呈现出颠覆性的改变,技术的未来价值值得被更深入地解读与探索。
12月13日,第三届EmTech China全球新兴科技峰会在北京召开,华为云业务总裁郑叶来参会并发表题为《多元算力驱动应用创新》的主题演讲。他提出云正在成为信息世界的基础设施,云上多元算力将成为常态,驱动计算技术的进步和应用创新。
华为云业务总裁郑叶来(来源:EmTech China)
上世纪50年代,计算机正式问世。自那开始,全球人均GDP加速增长,无论是商业和生活,还是技术与行业发展,都对计算产生了强烈的需求。郑叶来认为,算力不仅仅是计算能力的描述,更是已经成为整个信息世界的基础能力,而在AI时代,信息世界对算力这一基础能力的需求则变得更为突出。
算力的基本实现单元是芯片,但站在整个社会的角度,如何实现对千行百业的算力供给?郑叶来表示,算力最佳供给方式是云。如今,云正在成为整个信息世界的基础设施——在前端,即云的使用层面,云汇聚了大量应用;在后端,即云的供给层面,则汇聚了海量算力。
当前,云不再仅仅是互联网行业的“专属”,企业的大量应用也正在通过云来实现数字化转型;个人的应用,包括大量的手机应用,也都在使用云服务,200台手机对应着一台服务器;除此之外,还有大量的行业应用,比如华为公司的CRM/ERP系统都构建在云上。
那么,究竟是算力驱动应用,还是应用驱动算力?对此,郑叶来认为两者的关系是相辅相成的——云源于计算技术进步,也将驱动计算创新与发展。
进入21世纪,以CPU为代表的、基于规则的算力出现过剩,由此出现了云。可以说,云汇聚各类工作负载,又将反过来驱动各类计算的创新与进步,尤其是以暴力计算为特征的统计计算,以及统计和规则为特征的混合计算。
未来在更高维的信息空间,也许会发展出适合云的、更高维度的规则,这一规则有别于人类先验知识的规则,也有别于物理规则的“新规则”,这也许是AI的发展方向,比如Alpha GO发现了一些人类未曾发现的三千年围棋知识的支撑。
近数十年来,CPU一直发挥着重要作用。但在以统计计算能力为主的NPU出现后,CPU和NPU相互搭配,将以多元算力的方式,给千行百业提供更为完善的基础设施服务。
同时,未来10年,当数据中心(DC)的算力增长,数据中心将变成计算中心(CC),包含云、企业自建计算中心等。云在本质上是大规模计算中心;并且这样的计算中心中,基于AI的计算负载将会超过整个计算中心算力的80%以上。而计算中心缺乏算力,将严重阻碍产业创新与应用。
当云上算力结构发生变化,云上多元算力将成为常态。郑叶来表示:云作为信息世界基础设施,不仅构建出“海纳百川”的底层架构,也支撑了“百花齐放”的上层应用——不仅有各类经典行业应用,也有云上的创新应用,如云电脑、云手机,AR/VR等,更有面向未来智能时代的人工智能应用。
此外,郑叶来也强调,作为信息高速公路,5G快速的发展将带来全新的改变,将成为整个社会变革的基础设施,加速行业智能化升级。
如今,科技的发展日新月异,让我们的想象力也在一次次被颠覆,正如当初计算机出现时那样。
郑叶来回顾,20年前他刚加入华为时大家面临的一个挑战是计算机遭遇的“千年虫”问题。站在当时来看,大家有担忧、有希望、各类观点充斥网络。但无论如何,那个时候我们根本想象不出今天计算产业发展的状况。
因此,未来的发展也许可以想象,但一定会超出我们的想象。
郑叶来表示:“今天的计算不仅成为每个人的触角(以手机为载体),更成为千行百业智能化转型的底座。当各行各业的生产力与算力相结合,业务效率势必会有极大提升,并且提升的空间也会超出我们的想象。”
站在发展的角度,如何获取算力、如何降低业务成本、提升业务效率成为企业亟需思考的问题。郑叶来总结道,云基础设施就是最佳的解决方案。首先,云具备多元计算能力;其次,驱动计算技术的进步,让算力始终保持最先进,比如让算力异构化、池化、服务化;最后,能顺应企业业务的发展,及时、零库存类供给多元算力。而这些都能使得企业减少成本浪费,提升业务价值,从而实现业务创新。
目前,万物互联的智能世界正在加速到来。华为云致力于为千行百业提供稳定可靠、安全可信、可持续发展的云服务,打造用得起、用得好、用得放心的普惠AI,让技术落地于产业实践,让企业更加从容地应对的智能时代。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。