如今,关于AI的讨论基本都围绕同一套逻辑展开:新的GPU架构、更大的模型参数、以及OpenClaw、Manus这样的爆款智能体如何重塑人机交互。但是,却很少有人愿意把关注从训练集群和推理算力上移开,去关注那些持续运转的存储阵列。
公众和资本都相信,AI竞争的核心是算力,谁拥有更多GPU,谁就拥有未来。
但站在大规模数据中心和基础设施提供商的视角,算力决定模型能运行多快,而存储则决定模型能否持续运行。
按照IDC的预测,到2029年,全球AI基础设施支出将突破1万亿美元。而真正支撑这个万亿美元体系持续运转的,不只有算力,还有数据能否被持续、低成本地存储、调度与调用。
事实上,GPU断电之后,显存中的内容会消失,真正沉淀下来的训练数据、推理日志、生成内容,以及越来越庞大的数字资产,最终仍要回到存储中。
AI时代消耗的每一个Token、生成的每一段视频、积累的每一次交互,都在持续提高存储的需求。而决定超大规模客户能否把TCO控制在可接受范围内的,是单盘容量提升的速度,以及整个存储系统的效率。
所以,提升存储的单盘容量,已经成为决定经济模型是否成立的关键变量。
但问题在于,过去依赖磁记录面密度持续提升来换取容量增长的路径,正在逐渐触碰物理边界。
在与西部数据首席技术官兼高级副总裁车晓东博士深度交流后,笔者认为,传统磁记录技术已经逼近超顺磁极限,继续提高面密度的难度越来越高,单一路线已经难以承接AI时代的数据规模。

西部数据首席技术官兼高级副总裁 车晓东
【简介】车晓东博士现任西部数据首席技术官兼高级副总裁,负责领导公司的技术战略与创新议程,致力于推动数据存储解决方案的发展,为可扩展、高性能的AI基础设施奠定坚实基础;2026年5月,他刚刚获得全美亚裔杰出工程师奖。过去三十年间,他持续引领并推动磁数据存储行业的创新,拥有50多项专利,并在数据存储技术领域发表了20多篇经同行评审的学术论文;他还是华美信息存储协会(CAISS)的创始董事会成员,以及IEEE磁学学会的高级会员。
01 AI“推理”加速大容量存储需求扩张
要理解如今的基础设施层正在经历什么,首先需要我们要回忆一个已经有些过时的认知。
在大模型发展的早期阶段,行业的核心任务始终围绕算力展开,数据则更像一次性消耗的燃料,被送入GPU集群完成训练,价值释放之后便进入沉淀周期。
但在车晓东看来,行业如今已经走到了新的拐点,AI训练之外,推理(Inference)正在成为数据增长的主引擎。
这一判断,与黄仁勋近年来持续强调的“推理时代(Inference Era) ”形成了呼应。
当OpenClaw、Manus这类Agentic AI开始进入真实生产环境,AI逐渐演化成拥有长期记忆、能够持续执行任务、可以自主调用工具的系统。随之而来的变化是,模型不再只是“消耗”数据,而开始持续地生产数据。
一次推理,对应着数十轮上下文、多次工具调用、长链路的决策过程,以及不断累积的运行状态与结果记录。文本、图像、视频、日志、知识库更新,这些都会源源不断地沉淀下来。
这已经不是简单的数据增长,而是数据生产机制发生了变化。车晓东介绍道:“过去的数据主要由人创造。PC时代,人通过键盘输入,移动互联网时代,人借助智能终端持续生产内容,而进入AI时代之后,数据开始自动生成,越来越多的内容,不再需要人类参与。”
由此,一个新的循环正在形成,训练催生推理,推理生成数据,数据再回流到训练。这便是不断自我强化的“数据飞轮”。
但问题也随之而来。这些被持续生产出来的多模态内容、超长上下文、Agent运行日志,以及庞大的历史状态,最终要存放在哪里?
车晓东提到,云端客户内部一直存在一个共识,他们普遍将HDD视作云基础设施的支柱。
原因在于,尽管高性能计算仍然依赖GPU和高速存储来完成,但随着训练数据、生成内容、历史上下文,以及长期归档数据的不断增长,云基础设施需要以可接受的成本,持续承载这些数据。
正也是在这样的背景下,大容量存储的重要性被重新放大。
车晓东分享了一个观察。智能手机普及之后,终端侧内容生产的爆发,曾经显著拉动了云端存储的需求增长;而进入智能体时代,当越来越多的内容开始由机器持续生成、调用和沉淀,这种数据扩张与存储需求之间的联动关系,只会进一步增强。
这也意味着,AI基础设施的竞争逻辑正在变得更加复杂,算力仍然决定着系统的处理能力,而存储能力,则越来越深地影响着数据资产能否被长期、高效地保留下来并持续利用。
02 11 碟设计让HDD扩容
海量数据持续涌入之后,基础设施提供商首先遇到的,是成本问题。
在西部数据面向全球核心客户和分销商开展的最新抽样调查中,中国受访者里超过90% 将总体拥有成本(TCO)列为HDD(Hard Disk Drive,机械硬盘)的主要优势,超过72%认为TCO是他们将HDD作为其长期战略存储层的关键原因。
AI资产持续增长,但数据中心的机房面积、供电能力和散热能力不会同步扩大。如果每增加一轮数据量,都要增加机柜、扩建机房,那么存储成本甚至可能超过业务增长带来的收益。
行业的需求开始变为,要在一块HDD中,装下更多数据!
这其中有一个容易被忽略的背景。
今天数据中心的大容量HDD,内部通常由多张高速旋转的磁碟(Platter,盘片)组成,数据写入时,磁头会悬浮在盘片表面读取和记录信息。理论上,放进更多盘片,就意味着能够记录更多数据。
但现实是,盘片增加后,内部气流会变化,振动会增强,磁头稳定性会受到影响,散热和电机负载也会同步上升。每新增一张盘片,都要重新调整这套高速运转的机械系统。
而在这样的背景下,西部数据推出了采用11碟设计(11-disk design)的数据中心级机械硬盘。
按照车晓东介绍,在相同尺寸和面密度下,相较传统的10碟架构,11碟方案能够带来约10% 的容量提升。
单看这个数字也许并不夸张,但放到一个动辄部署数万块硬盘的数据中心里,意义就完全不同了。多出来的10%,相当于每10块硬盘就能“凭空”多出1块HDD的存储空间,而机柜数量、供电体系、散热设计,则几乎不需要变化。
车晓东坦言,西部数据在该产品在设计之初就把兼容性放在重要位置,既兼容现有的部署环境,也兼容既有的制造体系。
换句话说,企业级用户不需要重新规划数据中心架构,就能在原有基础设施上完成新一轮的容量升级。
03 从磁道中拓展空间,创新磁记录技术突破容量的边界
如果说“11碟”设计解决的是三维空间的问题,那么接下来要解决的,就是在二维平面上,让同样大小的盘片,记录更多数据。
这里要先解释一个容易混淆的概念。
其实,HDD上的数据并不是写在一整块连续的区域里,是沿着一圈圈磁道(Track)记录的。而提高单盘容量的路径主要有两条,其一是增加盘片数量,其二是提升盘片上的记录密度,也就是在同样面积内记录更多数据。“11碟”设计已经在第一条路径上把空间利用推进到了相当高的水平,行业的目光,自然落到了后者,也就是如何在同一张盘片上,提升单位面积内的面密度。
传统的SMR(Shingled Magnetic Recording,叠瓦式磁记录)技术走的就是第二条路线。
它的原理像铺瓦片,相邻磁道之间允许部分重叠,从而在同样面积里记录更多数据。代价是写入逻辑会变得更复杂,因为修改一部分数据时,可能需要对相邻磁道或数据区块进行重新整理。 也正因如此,SMR对控制算法、缓存管理、数据恢复,以及纠错能力都提出了更高要求。
而西部数据提出的UltraSMR,并不依赖某项单独技术继续压缩磁道,而是在SMR架构基础上,把磁记录、控制系统以及数据管理能力协同优化,以继续提升单位面积内可记录的数据量。
此外,西部数据专有的 OptiNAND 架构技术,将嵌入式闪存 iNAND 与 HDD 控制体系结合,可将部分元数据和运行数据存储在闪存中进行管理,提升数据组织、缓存与可靠性管理能力,从而为更高容量和更高密度记录提供支撑。
与此同时,ePMR(energy-assisted Perpendicular Magnetic Recording,能量辅助垂直磁记录) 通过在写入过程中引入能量辅助机制,提升写入磁场控制能力和写入稳定性,从而支持更高面密度下的可靠记录。 而当记录密度继续提升之后,读取与恢复的难度也会同步增加。因此,纠错码(ECC)能力也需要相应升级,UltraSMR采用了更先进的数据纠错算法与机制,以保证高密度环境下的数据完整性与可靠性。
这些能力共同作用,使UltraSMR能够在现有机械硬盘体系下继续提升容量效率。车晓东透露,相比同代常规磁记录方案(CMR,Conventional Magnetic Recording),UltraSMR可实现超过20%的容量提升,并推动数据中心级HDD进入32TB容量区间。
容量增长带来的价值不言而喻。
对于基础设施提供商而言,在相同数量的服务器、机架,以及供电条件下,如果单盘能够承载更多数据,就意味着单位存储成本下降,同时降低扩容频率和新增基础设施投入。
这也是为什么车晓东反复强调,容量提升最终影响的是整个数据中心的成本结构与资源利用效率。
然而,对于西部数据而言,32TB 并不是终点。
随着 AI推理持续产生数据、长期存储需求不断增长,单纯依靠增加盘片数量或继续压缩磁道,能够释放的空间正在逐渐收窄。继续提升容量,开始越来越依赖磁记录技术本身的演进。
从车晓东披露的技术路线来看,后续西部数据将同时推进ePMR与HAMR(Heat-Assisted Magnetic Recording,热辅助磁记录)两条路径。
其中,HAMR的核心思路,是在数据写入瞬间,通过微型激光对记录区域进行短时间局部加热,使磁介质在写入时更容易完成磁化状态变化,而在写入结束后重新恢复高热稳定性。
这样一来,就能够使用尺寸更小、排列更密的磁性颗粒,在不牺牲数据的长期可靠性前提下,继续提高面密度,也就是在同样面积内记录更多数据。
沿着这条技术路径,西部数据规划继续推动单盘容量向100TB 级别演进。
04第二增长曲线:性能提升开启HDD“iPod时刻”
解决了数据“存进去”的容量问题,下一步就是要解决数据能不能更快地“ 取出来”。
如果一块硬盘能够存下更多数据,却不能更快地把数据读出来,那么容量增长未必会转化成系统效率的提升。
这一现象,在AI场景中尤其明显。
过去,企业级存储更多承担的是长期保存与归档的职责,数据写入之后,被读取的频率并不高。但AI进入推理阶段之后,大模型、RAG(Retrieval-Augmented Generation,检索增强生成),以及智能体应用,会持续地访问知识库、上下文记录、多模态素材。
数据开始被反复调用。
而问题在于,HDD过去十多年的演进并不均衡,容量持续增长,但访问能力并没有同步提升。一个直观的对照是,单盘容量已经从几TB 提升到数十TB 以上,但单盘顺序吞吐能力长期仍停留在每秒数百MB的量级。
这意味着,同样读取1TB 数据,大容量HDD并不会比过去更快.相反,由于单块HDD承载的数据越来越多,单位容量对应的数据访问效率实际上在下降。
反观在AI场景里,除了吞吐,IOPS(Input/Output Operations Per Second,每秒输入/输出操作次数)的重要性也愈发凸显。AI推理对知识库、向量索引、上下文片段的访问,往往是大量、小块、并发的随机请求。当一块30TB的硬盘同时面对成千上万次小请求时,IOPS不足带来的延迟,会让GPU陷入空转,即使还有计算余量,也只能等待数据到位。
也正因如此,车晓东直言,HDD新的演进方向,就是提升性能。
这里所说的性能,首先是带宽,即单块硬盘单位时间内能够完成的数据读取与传输能力。
为了解决容量增长之后访问效率跟不上的问题,西部数据推出了高带宽硬盘技术(High Bandwidth Drive Technology,HBDT)。
具体而言,传统HDD内部虽然有多张盘片和多个磁头,但同一时刻只有一个磁头处于工作状态,其余磁头只能闲置等待,数据访问本质上是串行的。
而HBDT的关键,是在三级执行器(Triple-Stage Actuator,TSA)的基础上,让多个磁头可以同时落在不同盘面的不同磁道上完成读写。TSA由音圈电机(VCM)、毫致动器(milliactuator)和微致动器(microactuator)三级控制构成,能将磁头定位精度压到纳米级,从而支撑多磁头在高速旋转中并行工作。这种“多头并行”的访问方式,让单盘顺序吞吐能力直接翻倍,使一块搭载HBDT的硬盘具备了接近“两块HDD协同工作”的访问能力。
而这一切,是在不改变硬盘外形尺寸、也不显著增加功耗的前提下完成的。
沿着这条路径,HBDT未来还有进一步演进的空间。当并行读写的磁道数量从2条扩展到8条,单盘带宽有望达到当前HDD的8倍。车晓东透露,西部数据正在研发“双轴双臂”的双枢轴技术(Dual Pivot Technology),将传统的单一执行器升级为两套相互独立的执行器,分别从盘片两侧对磁头进行控制。这一架构能在不牺牲单盘容量的前提下,再带来约2倍的顺序吞吐提升。两者叠加之后,单盘I/O性能有望相比当前主流HDD提升约4倍。
AI基础设施本质上是一个数据系统,在这个系统里,任何孤立的硬件都没有价值。为了承接企业普遍采用的RAG多模态知识库需求,西部数据正在开发能够与GPU直接联动的系统层架构。
在这一架构中,HDD、SSD等不同存储介质,会与中间的软件层(Software Layer)深度耦合,让数据在更合适的介质之间无缝流转。
落到西部数据的具体产品上,这种“让数据各居其位”的分层思路,对应着两类数据中心存储平台。
靠近性能需求的热数据层,可由OpenFlex Data24 4000系列NVMe-oF 存储平台来承接。该平台在2U 24盘位的机身里可容纳高达 1474.56TB 的低延迟双端口 SSD,通过高性能以太网把 NVMe 闪存延伸到共享存储环境,做到接近直连存储(DAS)的性能,又能让存储与网络带宽相互匹配、避免过度订阅。
其中,4100型号可提供PCIe Gen4x4连接,主打单盘极致性能;4200 型号则以双路 PCIe Gen4x2 连接支持主机I/O主动故障转移,兼顾高可用性。

在更偏重容量的温冷数据层,Ultrastar Data系列JBOD混合存储平台作为解耦与软件定义存储(SDS)架构的基础构建块,可在实现高容量的同时兼顾灵活性。Ultrastar Data102 3000 在4U机架内,容纳多达102块HDD,提供高达3.26PB的原始容量,串联四台后总原始容量可达13.04PB。该系列的Ultrastar Data60 3000则在4U 内支持多达60块HDD、提供 1.92PB 原始容量,串联四台后可达7.68PB。

此外,该系列还集成了两项专利可靠性技术:“IsoVibe振动隔离技术”能主动抵消盘片振动,让硬盘在满载状态下依然保持稳定性能,“ArcticFlow 热区冷却技术”则将冷风精准送入机箱中心,实现高效散热。两者叠加,可将硬盘返修率降低高达 62%,从而大幅减少故障、降低运营成本。
事实上,这种底层架构与前端应用的共生关系,车晓东也用消费电子设备的演进做了一个类比——“iPod 时刻”。
早期 iPod 等移动设备曾使用微型硬盘来满足当时的大容量本地存储需求;随着移动终端向更轻薄、更高性能的智能手机形态演进,本地存储逐渐转向闪存。而今天,OpenClaw, Manus这类Agentic AI 应用扮演的就像当年的iPod,它们在前端持续生成推理结果、上下文、日志和衍生数据,这些数据中的相当一部分最终仍会进入企业或云端存储基础设施进行长期管理和留存,从而进一步推动对大容量 HDD 的需求。
不仅如此,在性能狂飙的背后,西部数据还在持续向能源与安全方面发力。
能源,是 AI 时代的“第二通货”。车晓东指出,面对数据中心日益严苛的PUE要求,西部数据在数据中心产品上搭载 HelioSeal氦气封装技术,通过把盘片密封在低阻力的氦气环境中,让整盘功耗下降约30%,每TB 功耗相比传统空气硬盘实现明显降低。再配合低功耗选项(Low Power Option)的调优,进一步降低硬盘的能耗。
而在安全性上,西部数据已经把战略眼光投向了“后量子时代(Post-Quantum Era)”。
由于HDD的承载属性极强,一旦被黑客夺取控制权,后果将是灾难性的。车晓东强调,“面对未来量子计算可能带来的新威胁,我们采用完全符合NIST标准的抗量子加密方案,从头重新设计了HSM(硬件安全模块)与BitLocker,并引入主机真实性验证(Authenticity Check),确保在这场数据守卫战中,底层防线足够坚固。”
05 写在最后
盘片、磁道、氦气、纠错、磁头、加密这些技术细节,恰恰藏着AI 基础设施的底层运行逻辑。
过去两年,行业几乎把所有注意力都投向了算力,仿佛只要算力持续增长,AI就会自然向前演进。
可现实并不是这样。
模型需要被训练,需要被调用,需要持续产生数据、保存状态、形成历史记录,而这些数据能否被低成本、稳定、安全地存下来,决定AI系统是否能长期运行。
尤其进入推理时代之后,数据的增长方式正在变化。
训练数据是阶段性的,而推理数据是持续性的。智能体每一次调用、交互都在形成新的数据沉淀。这时,存储开始影响整个AI系统的边界。
如果回头再看西部数据这一轮技术演进,11碟设计解决容量,UltraSMR等磁记录技术提高密度,HBDT与DPT提升吞吐,HelioSeal技术降低能耗,这些创新解决的其实是同一类问题,那就是让持续增长的数据,以可接受的成本长期存在。
正如每一次技术爆发那样,繁荣属于前台,基础设施留在后台。而这种背后的“长期主义”,往往就发生在那些看不见的地方!
数据来源:IDC, https://www.idc.com/resource-center/blog/ai-infrastructure-spending-caps-historic-year-at-90-billion-in-q4-2025-2029-spending-to-eclipse-1-trillion/
好文章,需要你的鼓励
Instagram正在推出一项备受期待的新功能,允许用户手动调整个人主页网格中帖子的排列顺序。用户只需点击主页网格中的任意照片,选择"重新排列网格",即可进入拖拽界面自由调整照片顺序,完成后点击左上角返回按钮即可保存更改。该功能本周起开始向用户推出,部分用户可能尚未获得访问权限。
俄亥俄州立大学与Meta联合发布SuperMemory-VQA,一个测试AI能否充当"随身记忆秘书"的数据集,揭示现有最强AI系统在长时记忆任务上仍存在明显短板。
iOS 27代码中发现"休息提醒"相关字符串,暗示Siri AI可能在对话持续过长时向用户发出休息提示,并提醒用户Siri并非真实的人。目前,OpenAI、Anthropic、Google等公司已陆续为旗下AI产品添加类似功能。苹果尚未官方确认该功能,触发条件也可能不仅限于对话时长。此举表明苹果正关注AI聊天机器人带来的用户健康责任问题。
匹兹堡大学研究团队提出SITA方法,用温度阶梯退火结合能量模型代替精确散度计算,高效训练流模型采样分子玻尔兹曼分布,在丙氨酸基准上超越现有方法。