并行科技陈健：超算架构大模型算力，买不如租！原创

作者：赵晓勤

大模型的训练需要大量的计算资源，企业的资金投入几十亿到上百亿，因此在算力投入上要特别谨慎。大模型的训练是个典型的超算场景，采用超算的方式对企业来说更具性价比。租用算力方式比自建方式能让企业风险更低、现金流更充裕。

继Meta开源了Llama 2后，智谱AI及清华KEG实验室也将ChatGLM2-6B模型开源并免费商用。据统计，国内已公开发布了80余个AI大模型，其中半数都将开源。大模型的“百花争艳”也让更多的企业加入到算力扩张、模型训练与创业的热潮中。

“大模型的出现让我们看到了一个新生产力的崛起。通过对大模型的研究，人类首次发现，可以让一部分的脑力劳动由机器替代，实现人类生产力的大幅提高。因此也带来了大模型算力需求的爆发式增长。”北京并行科技股份有限公司董事长陈健博士接受至顶网记者专访时这样表示。

但他同时指出：“大模型的训练需要大量的计算资源，企业的资金投入要几十亿到上百亿元，因此在算力投入上要特别谨慎。大模型的训练是个典型的超算应用场景，采用超算的方式对企业来说更具性价比。租用算力方式比自建方式能让企业风险更低、现金流更充裕。”

并行科技陈健：超算架构大模型算力，买不如租！

（图：北京并行科技股份有限公司董事长陈健博士）

训练大模型太烧钱租用算力更现实

企业要做自己的大模型，首先要解决的就是大模型训练的基础设施问题——算力。企业自建算力还是租用算力同样是抉择难题。陈健建议：“大模型对算力的需求极大，动辄十几亿，光电费就要几百万，企业采用租用算力是风险最小、资金利用最优的方式。”

“据我们观察，在超算领域有90%是自建的，但大模型出来后自建的比例在明显降低。一半以上都在租用。”

做大模型训练不仅关系到企业计算算力成本的问题，还关系到企业业务方向和企业资金周转效率的问题。从企业经营风险上看，陈健认为：“如果企业训练的模型是面向ToC领域，产品风险相对就比较大。如果是做面向ToB的大模型，一般能拿到用户端在算力方面的费用，这样风险会相对较小。如给银行做客服大模型这种应用场景比较确定，风险也就比较小。”

算力的利用效率也就是资金的利用效率。陈健表示：“超算领域大家拼的就是算力的利用率。如果企业能大概确定自己算力的利用率能够连续5年达到或超过60%，那自建就没太大风险。在超算领域，租用的利用率总体上能达到60%，是国内自建超算算力平均利用率的2倍。”

从企业经营策略上看。“服务器的生命周期大概就是5年。如果采用购买服务器的方式自建，等于将5年的钱投入一次性支付，这种情况对企业尤其是初创企业的现金流是极大的考验。如果过早地将现金都套在高折旧的资产上，这对公司的经营会带来较大的影响，不划算。从另一个角度来看，初创企业的融资是一轮一轮进行的，越在早期，同样数量的融资额所占的股份比例就越大，股权融资成本高。这笔钱如果用来一次性支付5年的计算资源这种做法并不明智。企业应把未来的钱花在今天的经营、业务增长上。”陈健这样分析。

“以并行科技为例，我们是一家提供超算的服务商，要满足大模型训练，在GPU或计算卡上的投入就是几个亿。我们测算了一下，购买1000张H800，按市场价，就要投入3亿资金。如此大额的投资我们也不能贸然投入。而是采用算力网络模式，和三大运营商合作，由运营商出钱购买算力，我们做总包运营，大家合作分成，来解决重资产这个难题。

“因此，买不如租，大部分企业会选择租用的模式。企业在算力规划上还是要根据自身的发展情况。通用大模型发展非常快，算力烧钱的速度也非常快，都是以亿元为计。企业如果在没有融到足够的资金，还是不要采用自建算力的模式。”

加速落地，超算更适合大模型训练

市面上可选的算力租用方式无非就三种：云计算模式，采用公有云的方式；裸金属模式，也就是传统的服务器托管，以物理机的形式交付；还有就是超算模式，用海量的GPU卡，通过业务调度的方式变成一个大的计算池，用户用的时候从中选择自己所需要的GPU卡，用完再释放掉这些卡资源以便别人调用。

“我们认为，采用GPU集群的超算模式更适合大模型的训练。”陈健解释道：“大模型的训练本质上就是一个超大的训练任务，比如在1000张（或更多）GPU卡上跑两、三个月，这就是一个典型的超算应用场景。”

“云计算或者说云主机模式就是一个GPU服务器分给很多用户共享，是海量的单台、单节点的共享，并且是单节点内部的GPU卡资源的共享。可想而知，这个共享级别不足以支撑大模型训练需要成百上千张卡跑一两个月这样的应用场景。”

“采用GPU集群的超算模式是大模型训练较具成本优势的方式。用户只需对自己真实使用的GPU算力进行付费。而不是租了一年，调试要三个月，这三个月的调试期也要付费。”所以无论从算力对大模型训练场景的支撑能力，还是实际租用带来的使用体验，尤其是成本消耗上，超算都可谓是大模型训练的上乘之选。

坚持“三（数据、应用、模型）不碰”原则，超算中立且安全

“提供超算的企业自己并不做模型，也就是不跟自己的客户进行竞争。”陈健认为这是对那些依靠训练大模型创业和提升企业竞争力的企业一种极大的保护。他表示：“像一些算力服务商，他们既提供算力又提供模型，可能会发生和自己的客户相竞争的局面。”

“并行科技在商业逻辑上严格限制自己的行为范围，我们只做算力或者通过算力网络整合算力，做好平台，做好与应用的适配，做好应用执行时的值守，确保应用的稳定、正常运行，让整个训练过程顺利完成。”

“此外，我们更重要的是要做好优化，让程序跑得快。例如，我们有个客户用500张GPU卡训练，通过计算优化，我们帮他提升了40% 的性能。”

“我们主要通过技术服务、应用服务以及性能优化，帮助客户提升训练效率。我们的优势主要体现在：一、确保用户有GPU卡可以用。二、通过技术服务让客户感到好用。三、通过算力优化降低用户用GPU卡的成本并提升效率。”

大模型爆发式增长，在需求强劲和相关产业政策催化的双轮驱动下，将迎来智能算力基础设施建设的大扩容时代。企业在看到市场前景的同时也要考虑到产业风险和经营效率，做好顶层规划与技术积累，才能在机遇到来时既不错过，也不踏空。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

并行科技陈健：超算架构大模型算力，买不如租！ 原创

来源：至顶网计算频道

2023

07/31

17:42

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

DeepSeek之后，中国人形机器人以“群体智能”再次掀起技术浪潮

QwQ-32B模型成本地部署福音，通义App可第一时间体验

入局智驾的印奇，看到了怎样的未来？

GPU 云服务运营商 CoreWeave 申请上市

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

千里科技亮相吉利AI智能科技发布会，共启“AI+车”新纪元

天翼云CPU实例部署DeepSeek-R1模型最佳实践

京东云与宝德计算战略签约，共绘分布式存储与智算新未来

IBM 完成 64 亿美元收购 HashiCorp 交易，监管审批已获通过

全球AI顶会AAAI 2025 在美开幕，产学研联手的“中国队”表现亮眼

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

并行科技陈健：超算架构大模型算力，买不如租！原创