谷歌今天宣布对其云平台进行扩展,发布了一个新的基础设施选项Cloud TPU Pod,旨在满足那些需要大量计算能力的大型人工智能项目。
Cloud TPU Pod本质上是一组运行在谷歌数据中心中的服务器机架,每个机架都配备了谷歌的Tensor处理器单元(TPU)——完全为AI应用开发的定制芯片。谷歌已经在内部一系列服务中采用了这种芯片,包括谷歌的搜索引擎和谷歌翻译等。
此前TPU在Google Cloud上仅供单独租赁使用。与企业通常在AI项目中使用的GPU相比,TPU具有速度更快等诸多优势。去年12月公布的一项基准测试结果显示,在执行某些类型的任务时,TPU的性能比Nvidia同类硬件高出19%。
单个Cloud TPU Pod中包含256个或者1024个芯片,具体取决于配置。256个芯片的版本采用了谷歌在2017年推出的第二代TPU,峰值速度为11.5 petaflops。1024个芯片的版本采用了谷歌新推出的第三代TPU,峰值速度可达到107.5 petaflops。
这些性能数据表明该产品主要针对高性能计算机领域。目前全球最强大的超级计算机Summit峰值速度为200 petaflops。
事实上,Cloud TPU Pod在处理复杂性低于Summit等系统的数据时才能达到峰值性能,但总的来说它仍然是很强大的。谷歌通过API向用户提供Cloud TPU Pod,这样AI团队就可以像使用一个逻辑单元那样使用Cloud TPU Pod了,或者开发人员可以把一个Cloud TPU Pod的计算能力分散到多个应用中。
谷歌Cloud TPU高级产品经理Zak Stone在一篇博客文章中这样写道:“用户还可以使用更小‘切片’的Cloud TPU Pod。我们经常会看到ML团队在单独的Cloud TPU上开发他们最初的初始模型,然后通过数据并行和模型并行扩展到越来越大的Cloud TPU Pod切片。”
Cloud TPU Pod目前还处于测试阶段,早期客户包括eBay和总部位于犹他州的生物科技公司Recursion Pharmaceutical——该公司使用Cloud TPU Pod在对具有潜在医疗价值的分子进行测试。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。