赞助文章 尽管生成式 AI 和 GPU 加速 AI 训练与推理已经席卷全球,但全球数据中心仍然需要认真考虑 CPU 的问题。
首先,在大多数公司中,有数百到数千个后台工作负载在支撑业务运营,这些负载有时还需要关系型数据库的支持。毫无疑问,维护这些设备至关重要。
同时,对这些设备进行现代化改造也是一种方式,可以帮助支付未来几年在 AI 基础设施方面的巨额投资,无论公司是购买训练好的模型还是自行创建。无论如何,GenAI 都将是一项昂贵的投资,而通过降低通用服务器机群的成本,不仅可以减少这部分传统服务器机群的电力和冷却支出,还能同时提升其性能。
此外,配备大量核心、强大 I/O 和内存带宽的现代处理器,也是提高昂贵 AI 服务器机群投资回报的一种方式。根据 AMD 在配备八个 GPU 的服务器节点上进行的基准测试,像 "Turin" AMD Epyc 9575F 这样的高速 CPU 可以将 AI 推理性能提升高达 8%,AI 训练性能提升高达 20%。考虑到 GPU 的高昂成本,这种性能提升带来的收益远远超过了在 AI 主机上购买更快 CPU 所需的增量成本。
最后,在许多情况下,直接在 CPU 上运行 AI 算法是有意义的,因为现今的 CPU 完全有能力执行 AI 推理和轻量级 AI 训练所需的向量运算。因此,即使是在通用服务器机群中,拥有高性能 CPU 也很重要。
我们就这些问题与 AMD 服务器解决方案部门的公司副总裁 Madhu Rangarajan 进行了讨论,他负责产品管理、规划和营销工作。我们还探讨了一个观点:现在比以往任何时候都更需要考虑在数据中心部署单插槽服务器,摆脱传统的双插槽服务器思维。
如需了解更多关于 AMD 更新数据中心服务器机群的战略,请观看上方视频。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。