
倾听市场的声音,让所见所闻成为指引
AI基础设施市场和数据中心建设正以空前的速度和复杂度持续发展与扩大。我们所面对的问题多元且复杂,包括供应链挑战、国内外监管框架,以及如何根据不同GPU厂商的技术路线图,调整工作负载的适配等等。
市场的方向并不十分明确,产业的未来发展与从业者应做的决策也很难预先判断。不过,丰富的经验可以为我们指引方向。
正如许多死之华乐迷会告诉你的那句话:“如果你感到困惑,就去听音乐吧"(《Franklins' Tower》,1975年)。在这种情境下,这句话意味着要倾听市场的声音,让市场动态指引方向。以下是我在对市场的观察及与客户交流中总结出的五个趋势,而这些趋势很可能在2026年持续扩大。
趋势一:冷却技术与混合数据中心
由于现有数据中心的电力和散热性能有限,无法支持最新GPU,因此多数新建的数据中心都开始引入液冷技术。早在2024年4月,调查数据就显示有22%的数据中心采用了液冷式散热。且相关证据显示,几乎所有新建的AI专用数据中心或服务AI用户的数据中心都不会采用纯风冷配置。
然而,许多数据中心目前无法支持这类复杂的设计与架构,因此,市场也提供了数种替代冷却方案。
数据中心管理者和基础设施供应商都在寻找可应用于现有机房的新型散热技术,包括背板冷却器(Rear-Door Chiller)、侧边式冷却(Sidecar Cooling)、两相液冷设计,以及具有更低沸点的新型冷却液等。
对AI数据中心领域内的硬件供应商来说,液冷散热的专业技术,正在从"锦上添花"变成"必备功课"。如果对液冷方面的发展趋势和具体方案缺乏清晰的认知,数据中心运营方和规划人员可能会错过最新的技术。
因此,为AI生态系统提供系统和设备的企业,应积极提升在液冷领域的专业度,或与具备相关技术优势的公司合作,才能在市场上保持竞争力。
趋势二:云计算的监管与潜在陷阱
许多《财富1000强》内的企业都将面临着一个抉择:是将AI服务器基础设施部署在本地(通常位于第三方数据中心),还是放在云端?对处于严苛监管环境内的企业而言,由于欧盟、英国以及美国许多州(例如加利福尼亚州)的隐私法规,将所有数据都放在云端并不可行。这涉及了许多层面,包括对部分AI应用有明确限制的欧洲法律(相关“禁止用途”的界定较为宽泛,且在实践时仍存在解读空间),且美国的隐私法律与AI的交叉地带也越来越多。
此外,包括法律行业等特定领域,本地部署将成为必须的方案。在很多情况下,这样的部署形式才能符合严格的保密要求,以及行业的特定规范。
除了监管的复杂性,成本因素同样不可小觑。使用过超大规模云服务的人都知道,在云端部署计算资源和数据的成本有可能非常高昂,特别是大规模的部署。因此,监管合规、成本以及行业特定的内容管控规范等问题仍会在未来持续影响企业的策略。
要在AI数据中心市场取得成功,其关键在于企业需要建立相关领域的专业知识,或与已具备监管专业知识的机构进行合作。更重要的是,这能帮你绕开那些只有经验丰富的人才能看穿的"陷阱",而对于没有足够积累的人来说,这些"陷阱"往往难以察觉。
趋势三:供应链难题
许多AI服务器所需的核心组件成本正在不断上涨,同时,市场也面临供应量短缺和交付周期拉长的问题。根据CTEE的数据,DRAM价格同比上涨了171%,涨幅甚至超过了黄金。
用于SSD固态硬盘的NAND闪存价格持续上涨。GPU和处理器也因 AI 需求的激增而可能供不应求,即便是战略级客户也难以完全避免缺货问题。
如果AI服务器与相关组件的需求量持续居高不下,这些供应短缺、交付周期延长以及货源取得的问题,仍将成为数据中心建设项目的核心瓶颈。
大型OEM厂商通常与DRAM、NAND、CPU和GPU的主要供应商签订长期协议,因此能够锁定供应、价格和合理的交付周期。在当前供应紧张的市场现况,更可行的策略是提前押注关键元器件,与已经获得稳定配额的合作伙伴协作。
趋势四:因地制宜,按需部署
另一个关键议题是如何优化用户流程中推理节点的部署位置。这包括在边缘环境中,用于较单纯推理程序的推理节点,以及在数据中心内,处理最复杂的推理模型和高吞吐量推理程序的大型、计算密集型节点。
其背后的逻辑很简单:降低延迟、控制成本,让合适的节点运行相应的工作负载。本质上,这是一种“因地制宜”的策略,根据客户的工作负载和延迟需求,找到硬件部署的最优位置。
例如,在快餐连锁(QSR)行业,AI代理程序可以将麦当劳得来速窗口的语音点单自动转化为厨房订单。这类任务对算力要求不高,但需要极快的处理速度,因此更适合在餐厅本地运行,从而最大限度地减少延迟。随着降低推理工作负载成本的压力不断增加,这种趋势还将继续。
趋势五:主权AI的重要性持续提升
许多国家将AI部署的控制权视为国家政策层面的问题,同时也将其视为推动技术和经济发展的机遇。不仅如此,很多国家希望掌控AI计算资源所产生的内容输出,且这一趋势很可能将持续下去。
另一方面,针对本地语言进行优化的生成式AI大模型,在本地语言文本生成方面的表现往往比通用模型更好,这也进一步推动了各国发展主权AI的需求。
要满足主权数据中心客户的需求,需要具备多方面能力。例如,深入理解各地的监管框架、能够应对美国及其他国家的出口管制政策,以及具备本地化专业经验。在该领域开展业务的公司,最好与拥有这些技能的企业合作,才能在主权AI赛道取得成功。
结语
正如我们所见,AI与数据中心行业快速地发展,其特点就是变化莫测、速度飞快、瞬息万变。结合本文提到的行业趋势,希望从业者们能够在推进AI项目时,尽量避开那些可能让AI发展之路受阻的隐患和障碍。
解决这些问题通常需要企业在内部培养专业技能、与其他企业协同合作,或基于对未来的判断做出理性的决策。对许多企业而言,与能够弥补自身能力缺口的伙伴合作是首选的起点。这需要携手他人共进,且愿意投入与承担风险。
正如Jerry(死之华月队主唱)曾经所说:“愿四面风护送你平安归家” 。祝你的AI数据中心之旅一路顺风。
好文章,需要你的鼓励
前FBI网络安全部门副助理局长、现Halcyon勒索软件研究中心高级副总裁辛西娅·凯泽指出,勒索软件已成为当今最大网络威胁。研究发现,与伊朗政府相关的Pay2Key组织仅用3小时即完成加密攻击,而Akira组织从入侵到加密全程不超过4小时。更值得警惕的是,借助AI工具的"业余黑客"正大幅提升攻击频率,尽管技术粗糙,但海量低质攻击可能掩盖更隐蔽的高级威胁,给企业安全防御带来严峻挑战。
Alaya Studio联合多所顶级大学开发的"生成式世界渲染器"实现了虚拟游戏画面与真实视频间的双向转换。该系统通过从《赛博朋克2077》和《黑神话:悟空》收集400万帧高质量数据,训练AI理解材质、光照等视觉要素。创新的ReShade数据采集技术和VLM评估方法解决了传统合成数据的局限性,在材质识别和场景编辑方面取得突破性进展,为游戏开发、影视制作和创意设计提供了强大工具。
Nvidia收购Slurm工作负载管理器开发商SchedMD后,业界担忧这家芯片巨头可能借此优待自家硬件,削弱AMD、Intel等竞争对手的性能表现。Slurm运行于全球约60%的超级计算机上,Meta、Mistral、Anthropic等公司均在使用。分析师指出,尽管Nvidia承诺保持开源中立,但其对开发路线图的掌控仍构成"战略依赖风险"。专家建议企业多元化采购GPU,并在合同中争取硬件平等支持条款。
北京大学等机构联合发布DataFlex框架,这是首个统一的数据中心化动态训练系统。该框架让AI训练从"填鸭式学习"升级为"智能化学习",通过动态数据选择、配比调整和权重分配,显著提升模型性能和训练效率,同时保持与现有训练流程的完全兼容性。