谷歌今天宣布对其云平台进行扩展,发布了一个新的基础设施选项Cloud TPU Pod,旨在满足那些需要大量计算能力的大型人工智能项目。
Cloud TPU Pod本质上是一组运行在谷歌数据中心中的服务器机架,每个机架都配备了谷歌的Tensor处理器单元(TPU)——完全为AI应用开发的定制芯片。谷歌已经在内部一系列服务中采用了这种芯片,包括谷歌的搜索引擎和谷歌翻译等。
此前TPU在Google Cloud上仅供单独租赁使用。与企业通常在AI项目中使用的GPU相比,TPU具有速度更快等诸多优势。去年12月公布的一项基准测试结果显示,在执行某些类型的任务时,TPU的性能比Nvidia同类硬件高出19%。
单个Cloud TPU Pod中包含256个或者1024个芯片,具体取决于配置。256个芯片的版本采用了谷歌在2017年推出的第二代TPU,峰值速度为11.5 petaflops。1024个芯片的版本采用了谷歌新推出的第三代TPU,峰值速度可达到107.5 petaflops。
这些性能数据表明该产品主要针对高性能计算机领域。目前全球最强大的超级计算机Summit峰值速度为200 petaflops。
事实上,Cloud TPU Pod在处理复杂性低于Summit等系统的数据时才能达到峰值性能,但总的来说它仍然是很强大的。谷歌通过API向用户提供Cloud TPU Pod,这样AI团队就可以像使用一个逻辑单元那样使用Cloud TPU Pod了,或者开发人员可以把一个Cloud TPU Pod的计算能力分散到多个应用中。
谷歌Cloud TPU高级产品经理Zak Stone在一篇博客文章中这样写道:“用户还可以使用更小‘切片’的Cloud TPU Pod。我们经常会看到ML团队在单独的Cloud TPU上开发他们最初的初始模型,然后通过数据并行和模型并行扩展到越来越大的Cloud TPU Pod切片。”
Cloud TPU Pod目前还处于测试阶段,早期客户包括eBay和总部位于犹他州的生物科技公司Recursion Pharmaceutical——该公司使用Cloud TPU Pod在对具有潜在医疗价值的分子进行测试。
好文章,需要你的鼓励
在2025年格勒诺布尔Leti创新日大会上,能耗问题成为焦点。随着AI驱动计算需求激增,数据中心规模和能耗急剧膨胀,部分数据中心功耗将达500兆瓦。CEA-Leti启动Resolve计划,目标到2032年实现能效提升1000倍。大会展示了3D集成、光子互连等节能技术,以及无PFAS芯片制造方法。业界呼吁通过先进封装、宽禁带功率器件等实用技术,平衡AI发展与可持续性需求。
清华大学团队开发了CAMS智能框架,这是首个将城市知识大模型与智能体技术结合的人类移动模拟系统。该系统仅需用户基本信息就能在真实城市中生成逼真的日常轨迹,通过三个核心模块实现了个体行为模式提取、城市空间知识生成和轨迹优化。实验表明CAMS在多项指标上显著优于现有方法,为城市规划、交通管理等领域提供了强大工具。
联想集团推出专为人工智能工作负载优化的数据中心系统产品组合。主打产品ThinkSystem SR680a V4计算设备集成近二十个处理器,推理工作负载运行速度比上一代硬件快11倍。该系统配备8块英伟达Blackwell B200显卡、6个英特尔至强6处理器,以及8个英伟达SuperNIC和BlueField-3 DPU。同时发布基于SR675服务器的两个系统和四个混合AI优势产品包,涵盖制造、酒店、安全和零售等应用场景。
MIT研究团队发现了一个颠覆性的AI训练方法:那些通常被丢弃的模糊、失真的"垃圾"图片,竟然能够训练出比传统方法更优秀的AI模型。他们开发的Ambient Diffusion Omni框架通过智能识别何时使用何种质量的数据,不仅在ImageNet等权威测试中创造新纪录,还为解决AI发展的数据瓶颈问题开辟了全新道路。