大会还在进行中,AI已经开始“交作业”了。
在2026腾讯云AI产业应用大会直播期间,评论区不断有人@元宝,让它实时整理会议纪要。
元宝也非常给力。面对腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生与腾讯AI首席科学家姚顺雨的对谈,不仅迅速生成了会议摘要,还顺手列出了待办事项。
去年年底,原OpenAI的研究员姚顺雨加入腾讯,成为继元宝出圈之后,腾讯最受关注的话题。
此前,姚顺雨在2025年曾经发表博客《The Second Half》谈论AI下半场,AI发展重心已从“刷榜冲参数”转向“真实场景价值与可评估的任务解决”,强调“评估优于训练”“上下文学习”“深度协同(co-design)”与“实用主义模型落地”。
这次对谈,话题又聚焦了一些,聊的是“腾讯AI下半场”。
AI下半场最重要的是什么?
腾讯云这次没有讲概念也没有讲叙事,只是想给听众讲讲,腾讯AI要做什么。
姚顺雨感觉最近“下半场”有点被滥用,他先解释了一下,过去AI发展了几十年,现在方法论已经非常成熟,但寻找问题变得更加困难。
之前AlphaGo可以下围棋,翻译模型可以做翻译,但是有了预训练和后训练之后,我们好像有了一个万能的锤子,它是一个通用方法论,可以解决各种各样的问题,反而更困难的是怎么寻找好的问题去解决。
姚顺雨坦言来到腾讯,很重要的一点就是这里有很多好问题、好产品。
所以AI下半场最重要是什么?他个人觉得是,应该在中国建立一个长期基于AGI的组织。今天的AI,Foundation(地基)+Product(价值)+ Frontier(前沿)三足并重。
Co-Design,模型和产品如何相互成就
腾讯平时在开会时,通常会提到Co-Design,怎么把产品与模型紧密地结合起来。姚顺雨给出了三个判断。
首先,Co-Design的前提是模型本身足够扎实。
大模型能力建设依然要回到基础层面。预训练是一个相对独立于具体产品的过程,其价值在于构建通用能力底座。由于预训练本质上是一种泛化学习过程,每一次能力提升都能够持续传导到不同的下游场景和任务中。
“很多人喜欢关注排行榜,但更重要的是基于真实产品和真实应用场景,构建能够反映实际价值的评估体系。”姚顺雨说。真正有效的Eval(评估)应该服务于产品,不是服务于榜单。
其次,“实用性”价值是大于刷榜价值。
模型团队与产品团队的深度Co-Design,本质上是在共同寻找技术能力与用户需求之间的最佳结合点,这一过程的关键是双方建立起足够的信任机制。只有形成互信,产品侧的数据反馈、用户行为数据以及场景需求才能有效回流到模型迭代过程中,进而形成评估、优化和产品落地的正向循环。
最后,LLM时代最大的不同是泛化能力。
这是LLM与过去AI技术最显著的区别之一。过去的AI系统大多围绕单一任务构建,任务边界清晰,能力建设也相对垂直。
但大模型时代已经完全不同。即便只是打造一个Coding Agent,背后也不仅仅需要代码数据。它同时需要优秀的对话能力、搜索能力、指令遵循能力以及推理能力。换句话说,一个看似单一的应用场景,实际上依赖于多种能力的协同构建。
姚顺雨认为,这意味着大模型产品的构建越来越像一项系统工程。除了模型本身,如何理解能力组合、数据结构以及场景需求之间的关系,同样决定着最终的产品效果。
拥有完整产品体系的平台会具备一定优势。以腾讯内部的Co-Design为例,模型在与元宝的协同过程中形成了较强的聊天和搜索能力,这些能力随后也能够迁移到ima、Workbuddy等其他产品中。
不同产品能够提供不同的数据,这些数据之间又具备一定的泛化能力。最终,产品、数据和模型会形成一个类似网络的体系。在姚顺雨看来,这种体系化能力的价值正在变得越来越重要。
Hy3 preview没有秘密,三件事见真章
Hy3 preview是腾讯混元团队重组后于2026年4月23日发布并开源的新模型。大家都说Hy3 preview是姚顺雨在腾讯的首秀,他认为这没有什么秘密。
第一,在基础设施层面做了重建,无论是预训练还是强化学习阶段,都进行了系统性的重构。
第二,在数据和评估体系上也做了较大调整,包括如何定义更贴近真实的问题、如何扩展数据的分类,以及如何持续提升数据质量。
第三,在很多关键决策上,比如团队如何招聘、模型迭代节奏如何安排、以及日常大量需要权衡的选择,其实都缺少统一公式,更偏向经验与判断驱动。
不同时代,做产品的第一性原理是否变了
姚顺雨在对谈中还反客为主,向汤道生抛出了一个关于产品的“第一性原理”问题。
从QQ秀、QQ空间、QQ音乐,到腾讯云,再到今天的元宝,汤道生几乎完整经历了腾讯从消费互联网到产业互联网,再到AI时代的产品演进,也横跨了To C与To B两大市场。
自称“老登”的汤道生回答是:产品首先要回答一个问题,究竟在解决用户什么需求。
无论时代如何变化、技术如何迭代,产品最终都要为用户创造价值。只有价值成立,用户才会选择并使用。
AI时代也是一样。
但现在做产品也有了很多之前没有的要求和挑战。AI产品面对的是开放式需求,用户很多时候只需用自然语言表达意图。产品需要充分利用大模型的理解、推理和工具调用能力,将用户需求转化为具体行动,并通过丰富的工具体系完成任务交付。
与此同时,AI也在重塑产品研发流程本身,设计、研发、测试整个流程需要重新设计,所以今天做产品要求的能力更全面了。
2022年那盏微弱的灯,今天已成万亿赛道
姚顺雨回忆博士期间的两个研究方向,一是构建Agent的方法论,尝试把一个将Next-token Prediction的机器,逐步变成能够执行任务的Agent或自动化系统,其中关键工作之一就是ReAct框架。
他印象很深的一次实验发生在2022年7月的一个夜晚。当时他第一次将Pump two的API与一个手写的Wikipedia API连接起来,让模型第一次能够基于网页信息回答问题,并支持多轮交互。
他形容那一刻像“微弱的电灯突然被点亮”,这可能是最早将LLM与互联网连接并用于交互式任务的尝试之一。
当时他的感觉,这类能力可能在5到10年内改变行业,但实际演进速度明显更快。
另一个重要节点是SWE-bench的提出。在他看来,如果模型能够在真实软件工程任务中取得进展,其价值是显著的。当时的预期可能在百亿到千亿级别,而随着能力快速提升,这一规模判断也被不断上调到万亿级别,甚至仍然显得保守。
博士期间另一个研究方向则是对“数字自动化任务”的定义,比如WebShop是较早的基于互联网环境的Web Agent任务,而InterCode和SWE-bench则代表了早期Coding Agent任务的探索。
从今天回头看,Agent方向逐渐收敛为两个核心领域:面向外部环境的通用Agent,以及面向代码任务的Coding Agent。
他提到,前段时间在群里交流时重新翻看自己的博士论文,尤其是2024年写下的未来工作部分,包括四个方向:为Agent训练模型、鲁棒性与部署、科学发现,以及如何更好地辅助人类。
Token消耗太大,中国语境下都在讨论“性价比”
“毫无疑问今天Agent或者Coding Agent有点像预训练一样,是不得不做的事情。”姚顺雨说。这是最基础的能力。
但是他做的方法会有几个不同之处。
第一,即使在今天,Coding依然是最重要的方向之一,但整体能力仍然需要体系化构建。要做好Coding,依赖的不只是代码数据本身,还包括对话能力、推理能力等多种能力的协同,因为大模型的核心特征在于泛化性。
第二,产品的作用正在变得越来越关键。如何利用线上回流数据,已经成为几乎所有模型厂商都在重点思考的问题。在这一过程中,前期积累的Co-Design经验显得尤为重要。
第三,仍然需要更多想象力。不论是技术演进、产品演进,还是下一阶段可能出现的范式变化,都需要持续进行探索性、甚至带有不确定性的尝试。
他认为,在中国语境下讨论“性价比”,往往更多停留在模型架构层面,但实际这是一个更复杂的系统问题。
第一层是性能本身。性能是性价比的前提条件,很多人后来会发现,用更强的模型反而更省钱,因为它能更快把事情做对,也减少了人的干预成本。尤其在今年,简单任务的稳定性和鲁棒性变得更加重要,一次做对相对简单的任务,本身就是性价比的一部分。
第二层是成本控制。在性能成立之后,成本优化才有意义。从中国实践来看,这一环节的工程化推进相对领先。更核心的问题,是如何用更小的模型承担更高价值的任务。在此基础上,还涉及架构创新,包括长上下文管理、以及各种工程化“脚手架”能力的设计与优化。
腾讯在AI上掉队了吗?
很多人都会说腾讯在AI上没有及时抓住机会。姚顺雨的理解是,今天AI有两个重要判断。
第一,是把AI视为短期游戏还是长期游戏。硅谷当前确实存在一种情绪:认为未来两年窗口期内会迅速完成财富积累,随后行业格局基本定型。但他的判断恰恰相反,AI是一个长期过程,下半场才刚刚开始。
他说,ChatGPT或Claude Code不太可能成为唯一的“超级应用形态”。如果未来世界只剩少数几个中心化入口,反而是一种相对收敛甚至停滞的状态。更合理的图景是,随着技术演进,会持续涌现新的应用形态与产品机会。
从这个角度看,当前阶段更像是上世纪70年代PC刚刚兴起的早期阶段,很多基础能力与应用空间仍未被充分展开。
第二,是AI发展路径会趋向单一还是多元。在过去几年,从预训练、后训练到Agent、Coding Agent,行业确实呈现出一条相对清晰的主线,也带来一定程度的同质化趋势。
但他认为,未来更可能走向多元化演进。一方面,Coding Agent作为生产力工具的重要性仍在提升,但整体仍处于早期阶段;另一方面,多模态、具身智能等方向也在同步发展,更多新的应用形态正在出现或刚刚起步。
因此,如果将AI视为一个“下半场刚开始”,那么当下远未到终局,更像是一个持续扩展的起点。
在汤道生看来,腾讯是一个多业态公司,产品分布在不同赛道,同时也有多个团队在推进不同项目。在这样一个复杂体系中,不同环节的推进速度并不一致,有的快,有的相对滞后,也有一些仍处在探索阶段甚至可能经历失败。
但整体来看,这是一场长跑,更接近马拉松式的过程。腾讯拥有相对丰富的应用场景,这一点也为持续迭代提供了基础条件。
汤道生在最后还谈了腾讯背后的三个核心能力。
第一是场景联接的能力,通过腾讯的微信、企业微信、元宝等等高频的场景触点,来把大模型嵌到真实的业务流,跟用户、数据、生态能够深度联接。
第二是工程的驾驭能力,通过完整的Harness体系,让Agent能够稳定、可信、可持续运行,具备强大的AI Infra,让包括高速的网络、高吞吐的存储,还有高性能的Agent Runtime来保证GPU的高利用率。
第三是模型驱动力,依托混元大模型和模型产品 Co-Design ,兼顾实用性、性价比和 ROI。
同时 ,启动“腾讯AI共创营(二期)”, 携手ISV、MSP伙伴,一起共创行业解决方案,打造更多的标杆案例。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。