昨晚睡得好吗?睡不好可以刷快手的《11 点睡吧》。这部当代人睡眠困境的微综艺,总曝光量达到 107亿,不但科普睡眠知识,更深度探讨都市人的喜怒哀乐[1]。惊人的曝光量背后,是快手对用户画像数据的精准分析,离不开强大技术支持下的推荐系统,得以让优质的内容被更多喜欢它的人看到。
作为超 3 亿日活、日均千万级短视频上传、强调社区普惠的短视频 APP,快手推荐系统在大规模复杂业务中面临着巨大性能挑战。想要化解算力瓶颈,异构计算是一个重要选项,这种使用不同类型指令集和体系架构的计算单元组成系统的计算方式,能够针对不同任务选择最优的计算架构,从而充分挥各种计算机构的优势,协同完成复杂的工作任务。
一、异构计算助拳,缓解参数服务器瓶颈
快手作为短视频内容平台,内容生产、内容理解、内容分发、内容消费、用户互动这些环节,构成了大规模的复杂业务,对算力产生更多元的需求。举例来说:在推荐业务场景中,需要根据用户画像推荐感兴趣的内容,就要从海量信息中选择与用户特征相关的结果,再通过“排序”来划分内容的优先级别。在这一过程中,参数服务器的作用非常重要,它负责存储、处理海量数据特征以及排序模型参数,保证任务高效、准确地完成。
快手的推荐系统为了应对海量数据冲击,在架构上分离了计算与存储。参数服务器属于存储型服务,该服务要保存和实时更新上亿规模的用户画像、数十亿规模的短视频特征、以及千亿规模的排序模型参数。受限于容量和带宽的参数服务器,还要支撑每秒数亿次的 KV 请求,耗费大量 CPU 资源。
要解决此类瓶颈,最佳方案是使用不同计算设备处理不同负载。快手的LaoFe NDP 近数据架构,在计算体系结构上实现创新,使用英特尔® 至强®可扩展处理器、英特尔® Agilex ™ FPGA 和英特尔® 傲腾™ 持久内存,借助软硬一体化、领域专用加速器设计,从而做到网络、存储、计算三重加速,为各个业务系统提供低延迟、高并发、高吞吐、低总体拥有成本的基础资源。
二、持久内存+FGPA 专用硬件,确保三重加速创新
在网络层面,LaoFe NDP 架构将 CPU的网络数据处理转移到英特尔® Stratix 10 FPGA 上,同时基于该 FPGA 实现了“软件定义远程直接内存访问”协议(SD-RDMA),大幅降低了请求延时。
在存储层面,该架构打造了支持 SSD、英特尔® 傲腾™ 持久内存、以及 DRAM 的 Key-Value 存储引擎,将CPU 层面的存储操作也转移到 FPGA 中,最大程度发挥 FPGA 的能力,相比 CPU 方案,将存储引擎的吞吐能力提升 5 倍以上。该引擎还利用英特尔® 傲腾™ 持久内存的特性,让基于异构存储的索引系统几乎达到纯 DRAM 相同的性能指标,成本降低 30%。同时相比之前小时级的故障恢复速度,异构存储的索引系统只需几分钟就能重新上线。
LaoFe NDP 的计算加速仰仗 FPGA 作为领域专用处理,可以更有效地并行处理数据,提供更高效的内存层次结构与定制化的执行单元,从而支持机器学习、深度学习和大数据等场景。英特尔® FPGA 具备富于弹性的可编程硬件能力,延时低且可精确控制,单位算力功耗低、 片上内存大,适合于快手延时要求高、批处理比较小、 并发性和重复性强的应用场景。
快手LaoFe NDP 架构在英特尔软硬件优化下,最终实现了如下优势:
通过快手的实践能够看出,以异构计算加速不同负载,能够显著提升在推荐等场景下的系统吞吐与延时表现。未来,英特尔还会和快手等合作伙伴一起,推进面向未来数据中心的异构参考架构,通过CPU、IPU、XPU的产品组合以及软件堆栈,以及智能网络结构,提供跨越整个数据管道的解决方案,高效挖掘海量数据中的智慧,让用户与用户、用户与内容、用户与商品可及时按需建立高效、有温度的连接互动。
扫描下方二维码或点击“阅读原文”了解更多案例详情。
[1] 微内容时代,快手娱乐凭借创新内容抢先一步?
https://www.sohu.com/a/563124514_121321820
[2] 快手携手英特尔,通过LaoFe NDP架构加速异构计算提供多元算力
好文章,需要你的鼓励
TechCrunch Disrupt 2025 AI舞台将汇聚塑造科技未来的领军人物,顶尖风投将揭示在快速变化的AI领域获得融资的关键。来自Apptronik、ElevenLabs、Hugging Face、Runway等创新企业的领导者将分享前沿洞见,探讨AI如何重塑创意过程、改变物理世界、变革国防安全和重新定义人际关系。10月27-29日,五大主题舞台将在旧金山呈现科技创新的未来图景。
西班牙研究团队提出了一种创新的AI自我纠错方法SSC,让人工智能学会识别和修正规则中的漏洞。当AI发现自己在钻空子获得高分时,它会反思规则的合理性并主动改进。实验显示这种方法将AI的"钻空子"行为从50-70%降低到3%以下,同时提升了回答质量。这项技术有望让AI从被动执行指令转变为能够质疑和改进指令的智能协作伙伴。
英超联赛与微软达成五年战略合作伙伴关系,推出AI驱动的Premier League Companion服务,为全球球迷提供个性化体验。该服务利用Azure OpenAI技术,整合30多个赛季的统计数据、30万篇文章和9000个视频,帮助球迷发现和了解更多内容。未来还将为Fantasy Premier League引入个人助理经理功能,并通过Azure AI优化比赛直播体验和赛后分析。
这篇文章详细解析了Long、Shelhamer和Darrell在2015年CVPR会议上发表的开创性研究"全卷积网络用于语义分割"。文章以通俗易懂的方式,将这项复杂的技术比作艺术家的绘画过程,解释了如何让计算机不仅识别图像中有什么物体,还能精确标出每个物体的位置和边界。研究团队通过将传统分类网络改造为全卷积形式,并巧妙运用上采样和跳跃连接技术,实现了高效准确的像素级图像理解。这一突破为自动驾驶、医学影像和增强现实等领域带来了革命性变化,奠定了现代计算机视觉的重要基础。