第一条就是能够吸取经验并从中充分学习,以便对离散行为的结果做出某种预测。对于这个过程,我们通常称之为思考。另一个重点则在于经历并改造这个物质世界。称霸这个世界的第三点必要条件,则是在很低的能量消耗配额之下完成这一切。而第四个关键要素,体现在集体行动与个体牺牲——也就是思考与行动之间的融合上,这也是人类与生态链中低等动物之间的最大区别所在。
而从英伟达联合创始人兼首席执行官黄仁勋的主题演讲来看,AI系统似乎正在顺利实现第一点。日前,英伟达在拉斯维加斯消费电子展(CES)上发布的全新的Cosmos世界基础模型,更是标志着其正朝着第二个重点奋力前进。
好消息是,人类似乎每天仍只需消耗几千卡路里的热量就能维持思考和行动——但这种低功耗状态下的思考和行动速度,明显跟不上英伟达及其合作伙伴为人类社会的未来构想的数十亿人形机器。或者更确切地说,是他们新手塑造并把握的未来形态。相信曾经为人父母、抚养孩子上过大学的朋友都知道,人类的培养与成长过程是极其昂贵的。整个周期至少需要18年,大多需要23年甚至25年,期间投入大量金钱(往往在30万到50万美元之间)才能最终培养出一个具备参与生产与自给自足能力的成年人。
虽然鲜有人直接提及,但这其实就是AI及其驱动的机器人将在未来几年颠覆的客观经济规律。
在CES主题演讲之前以及期间,英伟达公司高管所做的预发布会一直在暗示这一“机遇”的重要意义。而最终敲下定音一锤的黄仁勋,则为华尔街乃至全球观众描绘了一幅关于AI技术的未来图景。
可能很多朋友都听过这种说法,即世界上的大多数组织都只需要三台计算机。我们需要一套DGX系统来训练AI模型,该系统搭载有大量英伟达GPU、CPU以及DPU。旗舰级DGX设备为DGX GB200 NVL72机架级系统,黄仁勋不仅用自己闪亮的鳄鱼皮夹克让拉斯维加斯现场的观众们眼前一亮,还拿一个巨大的晶圆芯片模型当作教具给大家上起了课。理论上,这样一块晶圆可以容纳全部芯片,下面我们将对此做出更具体的说明:
NVL72系统及其NVSwitch互连是仅次于板材切割晶圆级NVL72的最佳选项,而且作为容纳服务器和交换机组件的机架,其成本明显更低且产量更高。但在不久的将来,如今的机架级系统将被塞进单一芯片插槽之内,类似于上世纪九十年代后期的NUMA服务器系统如今被压缩成单个插槽的情况。这种小型化趋势既是一种经济需要,也符合技术的发展规律,因为AI模型对于计算和内存组件之间的延迟显然极其敏感。
除了这套DGX训练系统,或者由ODM乃至OEM厂商打造的同类系统之外,在物理世界中应用AI技术的组织还需要依靠Omniverse系统来为自己的工作环境、车辆或者其他业务场景建立数字孪生。Omniverse需要辅以一套物理AI模型,该模型要能够真正理解现实世界中的物理特性,而英伟达刚刚发布全新Cosmos世界基础模型扮演的正是这一角色。
负责实现第三点的,则是现实世界中业已存在的GPU加速工厂、仓库、汽车乃至机器人,它们正被赋予更大的自主权。
当把这三者连接起来,也就构成了“三相之力”,得以在其之间建立起良性反馈循环,即一套运用现实世界数据进行训练、并在数字孪生世界中执行实践的终极模型。这套模型理解物理规律、运行速度比客观现实快得多,并能够通过合成现实来进行大规模增强,从而围绕更多场景接受训练并加快学习速度。
黄仁勋在主题演讲中解释道,“这三台计算机将以交互方式协同运作。长久以来我们一直在强调,英伟达针对产业世界的基本战略就是这样一套三计算机系统。于是乎,看似无解的「三体问题」就迎来了「三相之力」这个答案。”
看来单买一台、两台是肯定不够了,但就像英伟达的宣传语一样,“买得越多、省得越多”……
说了半天,那么这套所谓Cosmos模型到底是个什么东西?去年秋季,英伟达称该模型为“一套全面的图像与视频连续及离散标记器”,并强调其工作原理与大语言模型所依赖的文本标记器略有不同。总的来说,Cosmos模型能够跨越空间切割图像、跨越空间和时间切割视频,这样基础模型和扩散模型就能绘制出各个数据片段之间的关系,之后使用派生的token输出图像。从当时的博文来看,使用Cosmos标记器生成的图像和视频结果确实令人印象深刻。
而短短几个月后,英伟达就将Cosmos从一组标记器完善成了一套成熟的应用平台:
有了大语言模型,我们就可以使用机器学习算法处理数据,进而建立起一套神经网络。这套网络通过统计学方法将语言的语义分布封装起来。而通过对多种语言执行统计和封装,就能实现不同语种之间的往来转换;再配合接入扩散生成模型,即可将一种输入形式(文本、语音、图像或者视频)转换成另外一种输入形式。
在黄仁勋看来,物理AI代表着AI革命的下一个阶段。其处理的不再是数据,而是现实世界。需要强调的是,英伟达提到AI的后续阶段其实是以诞生于上世纪四十年代的感知器AI为起点,并在五十年代的IBM 704超级计算机上初步实现,最终在美国海军研究实验室的定制化设备上真正落地。
随后经过近80年的研究和探索,生成式AI才正式翻开人工智能的新篇章。在此阶段,人们建立起拥有大量参数的大语言模型,并展示了一系列从外部看来类似于思考和推理活动的突现行为。
第三个阶段则是代理AI,基本上就是将针对不同任务进行微调的生成模型的各个层次结构交叉链接在一起。通过这种方式,我们就突破了先输入查询和上下文数据、再由大模型根据统计概率给出更可能出现的下一响应词这种僵化能力,转而赋予其更加深邃的思考能力。
黄仁勋在主题演讲中具体阐释了物理AI的含义:
“我们真正要做的,是有效建立起一套世界模型——而非GPT,毕竟后者只是一种语言模型。这套世界模型必须能够理解现实世界中的语言,必须理解物理动力学,例如策略、摩擦力和惯性。它必须理解几何结构与空间关系,还必须能够掌握因果关联。如果把某样东西丢在地上,再用力一推,它就会翻倒。该模型还必须理解物体的持久性,即如果把球滚过厨房操作台,它会从另一边掉下去。这时候虽然不在视野当中,但球并不会跳进另一个量子宇宙,而只是静静躺在操作台后面。”
通过日常生活,我们早就总结出了这些经验,而且完全属于无意识的学习过程。公平地讲,从统计学角度出发,这个过程与神经网络通过GPU中的张量和向量核心所运行的模拟神经元非常相似。我们相信球还在厨房当中,是因为我们无数次见到过它甚至拾起了它,所以认定事物绝不会“噗”的一声直接消失!这也许还因为我们的大脑基于神经二元结构,且量子化程度还不够,所以感受不到我们周遭乃至体内都有大量基本粒子在来来去去……也许如果换个角度思考,或者换个空间场景来思考,小球确实会直接消失。至少现在的扩散模型,基本就是逆向运行整个过程,使得小球不再凭空消失、而是突然出现。
不好意思,有点跑题了。
在接下来的主题演讲部分,黄仁勋详细介绍了Cosmos模型:
“Cosmos模型能够吸纳文本、图像或者视频提示,并以视频形式生成虚拟世界状态。Cosmos的生成内容会优先考虑视音视频及机器人用例的独特要求,例如真实世界环境、照明效果与物体持久性。开发人员先使用英伟达Omniverse构建起基于物理规律和地理空间的精确场景,而后将Omniverse渲染结果输出到Cosmos,由后者生成具有照片级精度、基于物理特性的合成数据。无论需要哪些不同物体还是各类环境(包括不同天气、一天中的不同时段乃至其他极端情况),开发人员都可以使用Cosmos生成世界以进行强化学习AI反馈,借此改进策略模型或者测试/验证模型性能,甚至可以跨多个传感器生成视图。Cosmos能够实时生成token,将前瞻洞察与多元宇宙模拟的能力引入AI模型,生成所有可能的未来并帮助模型选择正确的发展路径。”
其实际效果如下所示:
这不就是我们设想下一步行动的基本流程吗?
黄仁勋表示,作为全球第一套世界基础模型,Cosmos接受了总长2000万小时的视频素材训练。这些视频展示了人们如何移动或者用手操纵物体的动态物理过程,旨在帮助AI模型理解现实世界中的物理规律及操作方式,最终为未来的机器人提供驱动和指引。
最后还有件有趣的事情。在前文介绍的主题演讲部分,我们实在不确定黄仁勋的声音和话语是否由英伟达的AI模型生成。其内容听起来有种奇怪的单调感,缺乏这位英伟达联合创始人那满满的活力和情绪。
Cosmos世界基础模型将通过Hugging Face及英伟达GPU Cloud在“开放模型”类别下免费发布。顺带一提,英伟达GPU Cloud是该公司为其全球云开发基础设施打造的品牌。但与纯开源的Cosmos不同,据我们所知英伟达在GPU Cloud中只开放了其CUDA库、即图像驱动程序。
现在让我们聊聊钱的问题,相信这也是很多朋友最最关心的重点。
在代理AI的支持下,模型之间的对话速度要比人类直接阅读或者解释图像/视频的速度快得多,因此需要体量更大、带宽更夸张的设备来支持。预计建立此类代理系统至少需要两个数量级以上的算力资源,这些系统本质上就是封装在软件算法当中的类人机器人。
据英伟达方面介绍,目前全球大约有10亿知识型员工。其中有3000万是软件开发人员,这群知识型员工中的代表虽然收入相对优渥,但也因此成为生成式AI支持下的代码助手和代码生成工具的主要“替代对象”。
英伟达还提到,全球共有1000万家工厂和20万个仓库在昼夜不停地服务于分销与零售商。其中仓库负责存放这些工厂生产的产品,再交由配送系统将其分段交付到我们手中。通过网络搜索和粗略估算,这些工厂和仓库可能会额外雇用10亿左右的劳动力。由此看来,在目前全球超过80亿的总人口当中,从事各种服务业的人数超过10亿,而劳动力总量则在30亿上下。
基于生成式AI的虚拟机器人正将矛头指向知识型雇员,而拥有物理实体的机器人也在伺机替代工厂和仓库中的劳工。
我们完全相信,对这数十亿劳动力进行部分甚至全面取代将对应一个价值数万亿美元的巨大商业机遇。如果大家跟我们一样对技术深深痴迷,那感受到的肯定是兴奋之情。但技术升级的最终影响会是什么?过度泛滥的技术应用会不会彻底击垮人类经济,导致资金无法在个人、企业和政府之间有序流动?
我们也不清楚。但可以参考黄仁勋在其主题演讲中透露的观点:
“从各方面来看,每家企业的IT部门都将成为未来AI智能体的人力资源枢纽。今天,我们负责管理和维护来自IT行业的各种软件;未来,他们将维护、培养、添加并改进大量数字化智能体,并将其交付给公司内各业务部门以供使用。因此,您的IT部门将转型成为AI智能体的人力资源中心。”
过往的几场技术革命已经让一切都起了变化,于是随着经济体量增加出现了新的经济部门,劳动力则需要掌握新的劳动技能。但随着机器人变得更高、更快、更强,而且完全不需要耗费几十万美元和数十年时间来培养和训练,我们实在难以想象未来的人类社会会遭受怎样的冲击。也许时机成熟时,我们可以直接下载这些AI智能体并在云端虚拟运行,或者购买一部只等电力就能工作的实体机器人并享受它长达几十年的服务。英伟达方面公开预测,在不久的未来世界范围内将有数十亿人形机器人被部署到位。
多年以来的现实已经反复证明,英伟达在AI实现的形式丰富度、愿景完整性以及计划落地等方面始终遥遥领先于市场上的其他竞争对手。黄仁勋正面向未来规划生活新形态,而他构想中的前景正在将我们熟读过的许多经典科幻小说产生共鸣并将其照进现实。在AI新兴浪潮的推动之下,整个人类社会的后续发展仍有待观察,但这一次不是小说、而是科学与现实。随着其经济影响的发展成型,AI的力量也将在政治层面得以体现,而且具体时间可能比很多人想象中更早、速度更快。
对此,我们将拭目以待。
总而言之,英伟达胸中的沟壑似乎远远超过在Meta Platforms上完成的Llama 3.1模型企业级实现,也绝不止于用Grace CPU和Blackwell GPU搭建新一代台式计算机——尽管二者也都非常有趣。不过和许多行业观察者一样,我们也希望从细微处跟踪这波变革,看看一台价值3000美元的Grace-Blackwell PC如何以微型计算机的尺寸提供千万亿次级别的FP4张量性能,进而运行起高达2000亿参数的生成式AI模型并相互联网,最终重塑计算科学与AI应用的全新形态。对于这样一个引领时代的产物,相信很多人都想上手体验,其最终甚至有望在数亿规模的用户群体中得到普及。
面对这样一个美丽新世界,做出准确预测的唯一可能就是继续关注、投身其中并携手共进。一切质变都是量变的积累,任何超出想象的未来也只能一分一秒、步步为营地走向现实。好在世界上还没有充足的GPU能以自然粒度模拟我们所有人,至少目前还不行,所以对于未来的掌控权暂时还把握在我们自己手中。
好文章,需要你的鼓励
微软计划在本财年投资 800 亿美元建设数据中心,以支持人工智能发展。这一巨额投资凸显了 AI 基础设施建设的资本密集性。微软将在美国境内投入超过一半资金,并呼吁政府制定平衡安全与创新的政策,以保持美国在 AI 领域的领先地位。
根据 GSMA 的研究,卫星通信市场近三个月发展迅速。各轨道卫星容量增加,商业服务可用性提高,企业采用率随之上升。研究显示,99 家全球通信运营商提供卫星服务,其中 19 家已上线,80 家正在规划或测试中。市场呈现三大趋势:运营商为 2025 年发射做准备、Apple 加大对 Globalstar 投资,以及卫星在企业规划中的重要性提升。
据报道,以太坊层 2 区块链开发商 Movement Labs 正在进行 1 亿美元 B 轮融资,估值约 30 亿美元。该公司基于 Facebook 的 Move 语言虚拟机开发了一个以太坊层 2 解决方案,旨在提高交易速度、降低成本,并增强智能合约的安全性。这轮融资反映了市场对高效区块链基础设施的需求和信心。
微软发布了名为 Phi-4 的小型语言模型的开源代码。该模型具有 140 亿参数,能够生成文本和解决数学问题。经过内部评估,Phi-4 在某些基准测试中的表现优于参数量是其 5 倍的大型模型。这一举动加入了科技巨头开源小型语言模型的潮流中。