为确保AMD能够为更强大的公有云提供支持,公司首席信息官Hasmukh Ranjan积极拥抱两个世界:云推动的业务转型,和大规模工程工作负载。
Hasmukh Ranjan正站在云的十字路口。作为一家芯片制造商,AMD是公有云计算引擎的重要提供商,Ranjan的主要职责之一,就是支持为云提供动力的半导体工程。但作为消费者,Ranjan和所有CIO一样,必须决定把赌注投放在哪里最合适。对于AMD最关键的工程应用来说,答案仍然是他们自己的数据中心——而不是云。
这是因为像AMD这样的芯片制造商需要超大核心的计算能力和内存,以及数PB的存储空间来运行他们的设计应用。尽管如此,在上任一年之后Ranjan表示,AMD有近95%的业务应用都是运行在公有云上的。他说,只是AMD为制造处理器而创建的庞大工程应用并没有运行在云端。
他说:“在工程方面,云提供商没有我们所需的那种高端设备,”他指出,AMD的设计应用需要每个核心高达64GB,“而且我们扩展到了高达2TB~4TB的系统。”
他表示,这些庞大的需求继续在三个方面增长——“多样性、速度和数量”,指的是AMD不断扩大的产品组合、AMD设计工作的高速度、以及芯片设计过程中产生的大量数据。
正是因为如此,Ranjan预计AMD的数字基础设施将在未来一段时间内还保持混合的状态,业务流程在云端,工程在本地环境,直到公有云广泛支持大量高性能计算工作负载。然而,Gartner分析师Sid Nag指出,AWS等云厂商提供的实例最多可达224个核心,而且很多企业已经开始在云端运行高性能计算工作负载了。
芯片设计的本质性转变
Ranjan说,AMD并非所有的芯片工程流程都是在本地执行的,他指出,AMD有10%到15%的计算是运行在云端的,这在行业中是很典型的。
由于工程要求,大多数芯片制造商从头到尾与Cadence Design Systems、Synopsys和西门子等电子设计自动化(EDA)供应商在本地展开合作,服务于最终设计蓝图,也就是从数据中心一直到制造商合作伙伴和晶圆厂,这种紧密集成的过程保证了数据的完整性和安全性。
但这种情况正在发生变化。Ranjan指出,Marvell Semiconductor与AWS在今年2月宣布建立合作伙伴关系,这表明半导体企业希望在生产中更多地使用云。根据公告,Marvell选择AWS作为EDA云提供商,以采用云优先的方式设计芯片。
Ranjan说:“但由于技术原因和商业原因,这个行业在采用公有云方面还是比较慢的,高端系统方面,本地环境和云之间的价格差异可能是非常非常大的。”
虽然芯片设计和制造没有太大变化,但有分析师表示,所有半导体企业都与云提供商建立了紧密的合作伙伴关系。例如,他们一起设计并构建了专门的高性能计算云服务,以满足这个非常重要的垂直领域的一些工作负载需求。
麻省理工学院斯隆管理学院高级讲师、Global Opportunity Initiative项目创始人George Westerman指出,在本地或者是高性能计算云上运行工程设计的决策过程,对于任何企业来说都是相同的:访问成本、数据传输的延迟成本、网络安全方面的问题。
Cadence、Synopsis、Marvell等主流供应商和芯片设计服务商的高性能计算云,本质上是半导体行业的行业云,唯一的区别就是芯片制造商直接与他们的制造合作伙伴或晶圆厂展开合作,迁移本地工程设计用于生产产品。
位于美国加州圣何塞的技术制造咨询公司TechInsights产品总监Risto Puhakka说:“半导体方面要比云端现在可以处理的规模更大。这些数据流非常庞大,创建了专用的管道将这些数据转移到台积电那里,为他们的晶圆加工制作掩模。”
IT转型
随着Ranjan获得和培养了更多的工程人才以生产出最好的产品,他也在改造公司的数字基础设施以实现业务目标——尽可能多地使用云。例如,Ranjan说,AMD最近把他们的SAP应用转移到了公有云中。
此外他还负责确保AMD拥有庞大的数据存储库和分析功能,以便为他的工程团队提供足够的资源。在这方面,AMD在AWS、微软Azure、Google Cloud Platform和Oracle Cloud上实施了领先的数据湖库、自动化应用和AI 算法,所有这一切都符合AMD最高管理层的愿望,即通过芯片进步更好地为所有云客户提供高性能计算工作负载,Ranjan正在通过为工程师们提供最先进的混合平台用于设计芯片来解决这个问题。
Ranjan说,一切似乎都在朝着积极的方向发展。
“大部分计算都发生在我们位于美国的大型数据中心——一个在亚特兰大,其余的分布在世界各地,”他补充说,AMD有54%的服务器机龄不到两年。“我们非常前沿。这不仅可以实现非常高效的计算,而且也是可持续发展的最佳选择。”
AI的价值
在商业方面,半导体行业过去十年中一直处于供求关系的大起大落中。疫情减缓了材料供应,进而拖累了制造过程并导致芯片严重短缺。Ranjan 说,由于可能出现的经济衰退减缓了对消费设备、个人电脑和服务器的需求,这种短缺最近有所缓解(汽车行业除外)。
但对AMD、英特尔和Nvidia等厂商来说,保持强劲需求的是云管理程序的持续增长,以及最近对机器学习模型和平台(如ChatGPT)的需求高涨。
Ranjan的设计师们也是AI的一大消费者,这些工具正稳步地融入到AMD的设计流程中。除了来自Cadence、Synopsis和西门子的高度专业化EDA工具之后,他们的半导体工作流程还需要源代码管理系统,而且越来越多地需要AI。
他说:“我们正试图用现有的AI新技术和工具来完善这一环境,这些技术正处于不同的部署阶段,有些是内部开发的,有些是与不同的AI供应商合作的。”
顺势而为
虽然Ranjan与云的关系可能不算是很典型,但他的核心工作与所有企业的CIO一样:让IT投资与整个组织的业务需求和目标保持一致。
因此Ranjan认为,CIO需要比业务方面领先半步,以扩展和支持公司不断发展的需求,并提供公司各个支持方所需的基础设施,包括业务和技术。
这是一种平衡的艺术,但CIO在最高管理层中的角色已经随着行业的整体数字化转型而发生演变。IT部门不再只是一个成本中心;恰恰相反,他说。
“我的梦想是为公司创造价值,并与公司的业务保持一致,我首先要确定的是我创建的解决方案是否100%符合公司不断变化的业务需求。我渴望每天都处于那种模式。”
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。