为确保AMD能够为更强大的公有云提供支持,公司首席信息官Hasmukh Ranjan积极拥抱两个世界:云推动的业务转型,和大规模工程工作负载。

Hasmukh Ranjan正站在云的十字路口。作为一家芯片制造商,AMD是公有云计算引擎的重要提供商,Ranjan的主要职责之一,就是支持为云提供动力的半导体工程。但作为消费者,Ranjan和所有CIO一样,必须决定把赌注投放在哪里最合适。对于AMD最关键的工程应用来说,答案仍然是他们自己的数据中心——而不是云。
这是因为像AMD这样的芯片制造商需要超大核心的计算能力和内存,以及数PB的存储空间来运行他们的设计应用。尽管如此,在上任一年之后Ranjan表示,AMD有近95%的业务应用都是运行在公有云上的。他说,只是AMD为制造处理器而创建的庞大工程应用并没有运行在云端。
他说:“在工程方面,云提供商没有我们所需的那种高端设备,”他指出,AMD的设计应用需要每个核心高达64GB,“而且我们扩展到了高达2TB~4TB的系统。”
他表示,这些庞大的需求继续在三个方面增长——“多样性、速度和数量”,指的是AMD不断扩大的产品组合、AMD设计工作的高速度、以及芯片设计过程中产生的大量数据。
正是因为如此,Ranjan预计AMD的数字基础设施将在未来一段时间内还保持混合的状态,业务流程在云端,工程在本地环境,直到公有云广泛支持大量高性能计算工作负载。然而,Gartner分析师Sid Nag指出,AWS等云厂商提供的实例最多可达224个核心,而且很多企业已经开始在云端运行高性能计算工作负载了。
芯片设计的本质性转变
Ranjan说,AMD并非所有的芯片工程流程都是在本地执行的,他指出,AMD有10%到15%的计算是运行在云端的,这在行业中是很典型的。
由于工程要求,大多数芯片制造商从头到尾与Cadence Design Systems、Synopsys和西门子等电子设计自动化(EDA)供应商在本地展开合作,服务于最终设计蓝图,也就是从数据中心一直到制造商合作伙伴和晶圆厂,这种紧密集成的过程保证了数据的完整性和安全性。
但这种情况正在发生变化。Ranjan指出,Marvell Semiconductor与AWS在今年2月宣布建立合作伙伴关系,这表明半导体企业希望在生产中更多地使用云。根据公告,Marvell选择AWS作为EDA云提供商,以采用云优先的方式设计芯片。
Ranjan说:“但由于技术原因和商业原因,这个行业在采用公有云方面还是比较慢的,高端系统方面,本地环境和云之间的价格差异可能是非常非常大的。”
虽然芯片设计和制造没有太大变化,但有分析师表示,所有半导体企业都与云提供商建立了紧密的合作伙伴关系。例如,他们一起设计并构建了专门的高性能计算云服务,以满足这个非常重要的垂直领域的一些工作负载需求。
麻省理工学院斯隆管理学院高级讲师、Global Opportunity Initiative项目创始人George Westerman指出,在本地或者是高性能计算云上运行工程设计的决策过程,对于任何企业来说都是相同的:访问成本、数据传输的延迟成本、网络安全方面的问题。
Cadence、Synopsis、Marvell等主流供应商和芯片设计服务商的高性能计算云,本质上是半导体行业的行业云,唯一的区别就是芯片制造商直接与他们的制造合作伙伴或晶圆厂展开合作,迁移本地工程设计用于生产产品。
位于美国加州圣何塞的技术制造咨询公司TechInsights产品总监Risto Puhakka说:“半导体方面要比云端现在可以处理的规模更大。这些数据流非常庞大,创建了专用的管道将这些数据转移到台积电那里,为他们的晶圆加工制作掩模。”
IT转型
随着Ranjan获得和培养了更多的工程人才以生产出最好的产品,他也在改造公司的数字基础设施以实现业务目标——尽可能多地使用云。例如,Ranjan说,AMD最近把他们的SAP应用转移到了公有云中。
此外他还负责确保AMD拥有庞大的数据存储库和分析功能,以便为他的工程团队提供足够的资源。在这方面,AMD在AWS、微软Azure、Google Cloud Platform和Oracle Cloud上实施了领先的数据湖库、自动化应用和AI 算法,所有这一切都符合AMD最高管理层的愿望,即通过芯片进步更好地为所有云客户提供高性能计算工作负载,Ranjan正在通过为工程师们提供最先进的混合平台用于设计芯片来解决这个问题。
Ranjan说,一切似乎都在朝着积极的方向发展。
“大部分计算都发生在我们位于美国的大型数据中心——一个在亚特兰大,其余的分布在世界各地,”他补充说,AMD有54%的服务器机龄不到两年。“我们非常前沿。这不仅可以实现非常高效的计算,而且也是可持续发展的最佳选择。”
AI的价值
在商业方面,半导体行业过去十年中一直处于供求关系的大起大落中。疫情减缓了材料供应,进而拖累了制造过程并导致芯片严重短缺。Ranjan 说,由于可能出现的经济衰退减缓了对消费设备、个人电脑和服务器的需求,这种短缺最近有所缓解(汽车行业除外)。
但对AMD、英特尔和Nvidia等厂商来说,保持强劲需求的是云管理程序的持续增长,以及最近对机器学习模型和平台(如ChatGPT)的需求高涨。
Ranjan的设计师们也是AI的一大消费者,这些工具正稳步地融入到AMD的设计流程中。除了来自Cadence、Synopsis和西门子的高度专业化EDA工具之后,他们的半导体工作流程还需要源代码管理系统,而且越来越多地需要AI。
他说:“我们正试图用现有的AI新技术和工具来完善这一环境,这些技术正处于不同的部署阶段,有些是内部开发的,有些是与不同的AI供应商合作的。”
顺势而为
虽然Ranjan与云的关系可能不算是很典型,但他的核心工作与所有企业的CIO一样:让IT投资与整个组织的业务需求和目标保持一致。
因此Ranjan认为,CIO需要比业务方面领先半步,以扩展和支持公司不断发展的需求,并提供公司各个支持方所需的基础设施,包括业务和技术。
这是一种平衡的艺术,但CIO在最高管理层中的角色已经随着行业的整体数字化转型而发生演变。IT部门不再只是一个成本中心;恰恰相反,他说。
“我的梦想是为公司创造价值,并与公司的业务保持一致,我首先要确定的是我创建的解决方案是否100%符合公司不断变化的业务需求。我渴望每天都处于那种模式。”
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。