AI遇到边缘，规范就要向应用妥协

边缘计算是IT和CT的融合，要在CT的规范中，履行IT功能。两个行业标准的融合往往是痛苦的，对于执行主体——厂商来说，尤其如此。

近年来，人工智能正在从互联网行业向通信、制造、能源、医疗、政府等各行各业渗透，成为了社会经济活动中最具变革的力量。得益于5G技术的发展，AI在向这些传统行业落地应用的过程中，延伸到了网络的边缘端：通信运营商开始部署MEC，基于基站中的边缘计算设施为附近设备产生的数据提供AI分析，钢铁厂可基于边缘计算平台的支持，实现产品智能质检模型下发和数据回传等等，我们可以看到越来越多的AI场景在边缘端落地应用。

据IDC预测，到2023年将有超过50%的新建企业基础设施被部署在边缘，而目前这一比例不到10%。AI走到边缘，意味着什么?

IT标准与CT标准的碰撞

AI走到边缘最直接的挑战是物理环境的变化。AI服务器对云数据中心的空间、散热等等都有严格的规定，可随着AI场景离人们越来越近，边缘端受限的物理空间、复杂的环境都在阻碍着AI向边缘的广泛落地。

在这些不同环境的背后，其实是云端数据中心IT（Information Technology）标准与边缘端CT（Communication Technology）标准有着本质的区别。

IT基础设施是规模化的，比如阿里巴巴等互联网数据中心，承载其电商业务的服务器有几十万台，面向单一业务呈现出大规模、集中化的趋势。但是CT的数据中心，也就是传统的电信数据中心不是规模化的，因为运营商不太需要把流量汇聚到一起，而是要快速得下发下去，到了5G，更是如此，所以CT的规模化效应是远低于IT的。但电信数据中心的多样化远高于IT，因为电信运营商网络要全覆盖，不同的环境都要适应，比如青藏高原就很少能有互联网数据中心，可电信数据中心就不能少，可以看出CT面临的是多元化的需求。

追其根本，是因为IT是以计算为核心，CT是以网络流量为核心的。IT数据中心以服务器等计算设施为核心，需要更强的计算性能，更大的体积，设备一般深度80厘米以上，可达120厘米，也因为IT设备规模化、集中化，所以环境需求单一。而CT以流量为核心，内部扩展要求低，所以设备更加小巧，深度一般在40厘米左右，可靠性、适应性的要求高。

客户需求对行业规范的挑战

边缘计算是IT和CT的融合，要在CT的规范中，履行IT功能。两个行业标准的融合往往是痛苦的，对于执行主体——厂商来说，尤其如此。

浪潮就接到过某个通信大厂边缘AI算力的定制化需求。客户提出要开发一款可以部署在边缘端的最强AI算力服务器，让边缘数据中心具备最强的AI训练及推理能力。该服务器需部署于600mm深的电信机柜内，因此服务器设备体积和内部部件的规划为19英寸宽，10.5英寸（6U）高，46厘米深，支持2个CPU芯片和32颗AI芯片。

AI芯片是以模组方式而不是传统的芯片方式供货给设备商，而该模组主要应用于IT场景，其140*78mm的尺寸是按照IT的大机柜场景设计的，在CT标准的狭小机箱内实现32颗AI芯片是极具挑战的。浪潮计划采用8个1U宽，5U高的LC槽位，每槽位4颗AI芯片互连实现32颗AI芯片的规格。

受物理空间限制，一块LC板上只能放置2个AI芯片模组，如何在这样的槽位内实现4个AI模组是达成该产品规格的关键问题。针对该问题，浪潮提出桥接，对扣，Retimer三种解决方案。由于芯片放置于AI模组上，模组同PCB连接时本身需要一对连接器，无论哪种方案都会涉及到AI芯片的25Gbps多次跨越连接器的问题。依据芯片厂家规范，4颗芯片无法多次跨越连接器，也就无法分布在两块单板上。但客户需求是最强的AI算力，若不能实现单槽位4个 AI芯片互联，服务器计算能力也会下降，无法满足客户需求。那就只剩一个选择，突破厂家规范，解决25Gbps多次跨连接器的信号完整性问题，实现4颗芯片分布在2个板上互连。

跨板互连方案最大的技术挑战是信号完整性设计。因为跨板互连方案不仅会导致信号传输距离大幅增加，而且当25Gbps信号多次跨越连接器，会加大25Gbps信号之间的串扰，增大高速信号的抖动。由于该应用无法满足芯片原厂对系统链路的设计规则要求，鲜有厂商敢于尝试这项挑战芯片厂商设计规则的研发任务。但为了服务用户、满足客户边缘端极致化的AI算力需求，浪潮承接了这项高难度的研发任务。

规范要向应用妥协

要在1U的空间实现4颗AI芯片之间25Gbps跨板连接，就要解决信号跨板互连时的信号完整性问题。而造成信号失真的主要因素包括单板材料、传输长度、连接器性能及数量等等。

芯片厂商对芯片板卡上的信号损耗、回损、串扰都会有明确的要求：

芯片系统的链路总插损要小于21dB，其中芯片模组本身会占据8dB，留给系统的损耗为13dB。

最好的PCB板材，信号布线最长仍不能超过11英寸;

线路信号初始是900mV，到达接收端眼高会降低至0mV，需要靠芯片内部的补偿机制回复眼图。传输过程多使用连接器传输距离就要变短，同时链路串扰要增加。每多使用1个连接器，就需要把总线长缩短0.5英寸。同时链路串扰要小于7mV，多使用一次连接器，串扰会增加2mV左右。因此一般最多支持2个连接器。

“举例来说，信号在PCB线路中传输就像冰壶在冰面上滑行，滑行的最长距离取决于冰面本身的光滑程度，如果冰壶在冰面遇到障碍发生颠簸，或者和其他冰壶发生碰撞，就会减小冰壶滑行的最大距离。高速信号经过信道中的连接器，就像冰壶遇到冰面的障碍，会引起信号的抖动和衰减，可能会导致信号无法正确的传输到接收端。”浪潮研发工程师侯绍铮解释。

“但由于边缘端空间受限，4个AI模块无法放置于同一块单板上，要跨板连接就不得不在链路中增加连接器，那么如何系统性的减少链路长度、改善链路反射点性能、优化信号间的串扰是架构设计、信号完整性设计能力的重要指标，也是产品成功与否的关键能力。”

通过前期的仿真分析，浪潮选定背扣式，即方案二作为了设计方案。为了保持信号传输路径最短，满足插损要求，信号线的布线路径不能如下图左侧黄线路径设计，必须从连接器内部穿过。而这会导致25Gbps信号穿过25Gbps信号过孔（红圈）之间发生串扰。浪潮工程师通过合理的布线层设计及创新性使用背钻技术，改变过孔的长度，规避了线到孔的信号串扰。

依据芯片厂家的设计规则，要求AI模组端连接器有效过孔深度小于50mil，而跨板互连连接器又必须满足stub小于10mil的要求，两者在本方案中是冲突的。为了解决这一问题浪潮通过对有效孔长及stub对信号完整性的影响逐一仿真分析，并根据项目具体链路情况建模，先后仿真分析了3种不同布线方案的24种布线方式，依据该项目仿真结果同厂家规范允许的链路设计进行了对比，确定最终设计方案。

尽管项目的设计、器件选型、验证无论是难度还是复杂度都很高，但随着设计方案逐渐明晰，设计中的技术风险被一一攻克，浪潮开发的背扣式AI模组跨板互连方案，成功实现4个AI模组多次跨连接器的25Gbps互连，不仅达成了客户的规格需求，也完善了面向边缘端AI应用场景的服务器设计规范。

从AI到边缘，客户应用打破规范是未来的趋势

2019年5G商用牌照正式下发，5G刚刚开始，边缘计算也刚刚开始。靠近网络边缘侧的计算是场景化的，是高度应用驱动的，不论是一般性的计算还是边缘AI，都需要在实际应用中一步步探索。这个过程就是技术上创新的过程。

这种技术创新不单单是要满足更强的计算性能，更低的时延，更宽的带宽，更是一个以实际需求，客户实际应用驱动的不同技术标准和规范碰撞和调整的过程。可以预见，随着5G和AI等技术的发展，面对客户不同的边缘AI场景下海量的计算需求，将会有越来越多的厂商去打破行业规范，为边缘数据中心提供更加多元和创新的解决方案。

来源：业界供稿

0赞

好文章，需要你的鼓励

AI遇到边缘，规范就要向应用妥协

IT标准与CT标准的碰撞

客户需求对行业规范的挑战

规范要向应用妥协

从AI到边缘，客户应用打破规范是未来的趋势

来源：业界供稿

2020

07/14

14:19

分享

点赞

千万装机量的龙蜥，如何面向AI进化？

AMD 锐龙AI MAX+ 395问鼎“技术王座”"春雨计划"润泽智慧万象

青云AI Infra 3.0，为企业搭建一条通向AI能力落地的桥梁

百分点科技发布业内首个数据治理大模型，开启“智理”新范式

全球数据中心电力需求暴涨，超越电网建设速度

AMD双轮驱动：路线图与资金互促，收入持续提升

FMC获得FERAM资金以终结Optane的阴霾

AI驱动垂直市场的商业变革与未来机遇

谷歌计划在德州投资400亿美元建设数据中心

AI推动KubeCon NA 2025平台工程复兴浪潮

DeepL CEO：专业翻译服务如何在ChatGPT时代保持竞争优势

提示工程迎来协作提示新技术，让AI成为你的合作伙伴

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

Microsoft 新推出的 Phi-4 AI 模型：小巧身材蕴含强大性能

Dragonwing 腾飞：提升高通工业和嵌入式物联网产品布局

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: