至顶网计算频道 01月09日 新闻消息(文/李祥敬): 短视频到底有多“火”?这个问题基本上不用回答,不过我们仍需要用一些数字来量化一下。中国互联网络信息中心(CNNIC)最新发布的《中国互联网络发展状况统计报告》显示,截至2019年6月,短视频用户规模为6.48亿,占网民整体的75.8%。
2018年短视频在用户日均使用时长上首次成功逆袭,反超了长视频。2019年短视频持续保持高增长态势,市场规模将远超200亿元。目前整个短视频行业月活超过8.2亿,近三年年复合增长率达到了64%。
在短视频市场,快手如今迈入了Top级大型互联网公司的行列。成立8年,快手已来积累了100亿条短视频库存,每天仍有超过1500万条的视频新增,在快手的平台上,每天曝光千亿条视频,视频播放量超过200亿次。
为了支撑业务的高速发展,快手的IT基础设施服务器超过10万台,数据总量超过EB级,每天的请求数超过2亿。目前快手除了在国内的北京、杭州、深圳的研发基地之外,在美国也有自己的实验室。现在快手员工超过万人,40%以上的员工是研发人员。
快手科技CEO宿华在其新书《被看见的力量——快手是什么》中写道,幸福感最底层的逻辑是资源的分配,而注意力是互联网的核心资源,快手的使命就是,用有温度的科技,尤其是AI技术,让更多的人得到注意力,提升每个人独特的幸福感。
在宿华看来,今天我们处在一个特别有意思的时代,互联网能够跨越距离的限制,让人和人之间更快、更便捷地连接起来。快手有大规模计算的能力,有做AI(人工智能)、机器学习的能力,这是世界上很多人不具备的能力。“我们应该发挥好这种能力,去帮助那些不掌握这种能力和资源的人,在快速变化的时代也能够变得更好。这是科技革命带来的进步和效率的提升,把效率产生的增量反哺到国民身上,这是我一直在想的事情,希望未来也能够一起探索把这件事持续做下去。”
作为一个“AI+大数据”驱动的公司,快手不断强化自身的IT能力建设,特别是在AI方面。快手之所以能成为风靡全国的短视频平台,与其产品有着良好的用户体验有关,这离不开AI在其中的应用。快手提出了一整套基于AI技术的解决方案,贯穿视频生产、内容理解,用户理解,系统分发等使用快手的每个环节。
AI在短视频上的应用包括人体姿态估计、手势检测、语义分割、AR相机姿态估计、图像画质检测、视频标签等等。例如,在快手平台很火的“激光雨”、“社会摇”等都是在人体姿态估计上,可以对人体姿态重建,并基于识别做出来各种特效和应用;用手控雨的特效就是手势检测。AI还能做到可以实时监测贴背景,如果主播觉得自己屋子很乱不想让粉丝看到可以用到语义分隔……这些视频特效的呈现都要归功于AI技术。
在内容生成上,AI让每一个人的记录形式更丰富有趣高质量,包括魔法表情、肢体识别、AR特效、全智能化P图。在内容分发方面,AI通过对海量用户兴趣、用户关系等数据的分析,让AI机器深度洞察用户,实现视频用户双向感知和精准匹配,同时分析用户所有的历史行为,如曾点击、点赞过的视频,从而推理出用户对什么样的内容感兴趣,最后通过一系列的智能算法理解为用户的标签。
目前在深度学习方面,快手拥有业界领先的端到端的在线训练技术,包括全链路目标自适应学习,支持亿级视频池,而且快手在业界大规模的推荐系统上应用了强化学习,可以实现一组视频的推荐。
如上所述,AI在快手的业务中扮演了重要的角色。不过快手日均新增1500万+作品的内容数据,千亿级展示带来的行为数据,以及由数据进行特征提取带来了存储方面的挑战。另一方面,在训练和推理当中因为特征参数越来越多,深度学习模型越来越深,导致模型变得越来越大,由此带来这些数据在网络当中传输的挑战。再加上每天千亿级的展示,这当中也带来了计算和内存挑战。
从2017年开始,本着“从业务中来到业务中去”的原则,快手的团队开始与英特尔的技术专家沟通协作,使用英特尔在AI方面的解决方案,解决业务发展中遇到的IT挑战,构建AI基础设施。
快手通过开展基于英特尔傲腾数据中心级持久内存、英特尔第二代至强可扩展处理器及英特尔FPGA在快手AI应用中的实践,双方共同建立起强大的IT系统,推动业务不断发展。
目前,快手正在以最新的英特尔第二代至强可扩展处理器及英特尔傲腾数据中心级持久内存构建全新的内容推荐系统服务器。在海量视频文件的存储方面,快手有包括磁带、磁盘构建的冷存储系统,由NAND和3D Xpoint加上QLC构建的温存储,由英特尔傲腾数据中心级持久内存和DRAM内存构建的热存储,三种热度的存储设备构建了完整的存储池,在满足业务特点的前提下,实现了性能和成本上的平衡。
快手将频繁读写、对延迟要求较高的场景放在自己打造的基于内存的快速KV数据库Redis上面,从而优化视频检索的时间,提升高并发下的检索效率,提升用户使用体验。不过苦于内存的价格以及单台服务器上内存容量限制,Redis也很难应对越来越大的数据量。
快手选择率先采用英特尔傲腾数据中心级持久内存。快手系统工程师通过在Benchmark层面的测试,研究傲腾与传统DRAM之间的性能以及延时的差异,并对标Redis业务和推荐系统的应用场景。
实际应用后快手发现,在满足业务性能需求的前提下,用英特尔傲腾数据中心级持久内存代替DRAM内存,能使得快手该存储系统整体TCO实现大幅降低,总TCO提升了30%的收益。不仅如此,由于英特尔傲腾数据中心级持久内存具有非易失性,可以保存意外断电之后的数据,使得该系统在故障后的恢复时间减少了很多,快手的专家实测发现,此前KV内存数据库系统的宕机恢复时间是小时级的,而现在时间缩减了百倍之多。
快手并不是简单拿来英特尔的方案直接用,在用DRAM和傲腾内存构建的KV内存池方案中,快手增加了一个MemPool组件来做进一步的分层,让MemPool来决定把数据放在DRAM还是傲腾内存里,比如神经网络就被放到DRAM里来提高性能,这跟所有分层的目的一致,也都是为了提升性能和效率。
据了解,快手是率先把英特尔傲腾数据中心级持久内存用在AI系统上面的用户。英特尔傲腾数据中心级持久内存是用于加速以数据为中心的应用程序,在构建系统的过程中,快手在提升推荐系统的准确性上一直有着很高的要求:包括新的模型算法、新的体系架构。傲腾持久内存可以直接从硬件层面上解决大数据量实时在线模型训练的问题。
快手的专家表示,英特尔傲腾数据中心级持久内存在硬件层面上解决了模型训练方面的问题,提升了模型训练的速度。在快手下一步的规划当中,傲腾持久内存将在Spark等大数据相关的业务中大范围使用。
如何在承载高峰期每秒数十万并发调用量的同时,从上百亿级别的短视频库中,通过千亿参数级别的深度模型将内容展现给用户?快手设计了基于异构计算打造的先进推荐系统,力求在日益增长的用户量冲击下,并基于推荐系统高可用的基础上,实时、高效、精准地向用户推荐优质内容。
快手异构计算架构师钟辉表示,一方面CPU的性能每年以3%的速度提升,但是数据的增长率是30%,所以供需之间有一个巨大的缺口。解决这一个问题唯一途径就是硬件采用特定域的架构(Domain Specific Architecture),也就是异构计算,即CPU加上各种加速器,这些加速器可以实FPGA也可以是GPU、ASIC。
每种加速器都有自己的优势和劣势,比如GPU擅长训练,但是在实时推理方面有所欠缺。FPGA相对GPU的优势是低延迟、低功耗、高性能,因为FPGA自带网口,擅长通信。ASIC的开发周期很长,NRE(一次性工程费用)非常高。
钟辉表示,快手在数据中心部署FPGA的挑战可以归结为既要“上天”又要“入地”。“上天”是说FPGA是部署在云端,所以需要解决的首要问题是在数据中心找到合适的业务场景,提供有价值的解决方案,它需有一定的通用性和规模化;“入地”则谈的是部署,在成本上一定要有竞争力,这样业务才有动力去采购。另外在部署的可靠性、稳定性、能耗比上也要有竞争力。规模化部署,容器化也是必需的,从而解决资源的弹性部署。
基于自身业务需求,快手部署了英特尔FPGA,应用在典型的AI模型比如CNN、RNN等。目前,快手异构计算组为公司业务部门提供强大、高效的计算系统,研发包括CPU、GPU、FPGA、ASIC等器件的混合解决方案。
“从快手来说,应用FPGA进行定制化加速,主要是从自己的业务需求出发,实现降本增效。在FPGA自研、落地场景和部署规模方面讲,快手在千亿级别推荐系统上率先大规模部署了FPGA,在国际上也是处于领先地位,其成功经验受到业界瞩目。因为个性化智能推荐是目前互联网行业中发展最快、挑战最多的技术方向,有广泛的应用场景。”钟辉说。
定制化和可重构是FPGA的两大优势:定制化可以为业务提供量身定制的最合适、费效比最高的方案,而可重构则可在部署中同时加卸载多个不同种类的业务,比如网络、存储、计算等。因为数据中心业务发展迭代非常快,而FPGA是可编程的器件,这对数据中心的资产保值是非常重要的。
通过实际部署,快手的FPGA方案与CPU方案相比,延迟降低了约1.5倍,最大吞吐大概提升了1.7倍左右,功耗有接近5倍的降低,从功耗效率来说提升了近8倍。“我们已经在数据中心规模化部署FPGA用于承载商业化业务场景,这在业界是比较领先的。”钟辉说,“英特尔FPGA在数据中心上更具前沿性,相关工具链比较成熟。快手选择英特尔还有一些‘软指标’方面的考量,比如说技术交流、支持、需求响应等。”
除了英特尔FPGA,快手还引入了OpenVINO、英特尔第二代至强可扩展处理器、配合AI战略,比如说语音识别、图像分类、目标检测等方面,第二代英特尔至强可扩展处理器具备“内置人工智能加速”能力,包括的MKL-DNN(数学核心函数库)、高性能编译器和人工智能框架优化方案等,通过一系列优化和改进举措,使得快手的推荐系统使用的AI算法效率大幅提升。
最近英特尔公布了oneAPI,以解决异构环境下的统一编程问题。对此,钟辉表示,英特尔在数据中心生态上是有优势的,我们会积极关注oneAPI。“英特尔的OneAPI可以提高开发的生产力,又通过编译器优化实现质量和效率,我们当然愿意尝试。”
当前,短视频行业快速发展,数据呈指数级增长,这对于视频网站提出了更高的IT能力建设需求。英特尔以数据为中心的战略满足短视频行业对计算、存储、人工智能等技术越来越高的需求,从而助力更多应用落地,促进产业发展。未来,快手和英特尔将持续完善从硬件到软件的深度合作,驱动业务的创新发展。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。