至顶网计算频道 08月05日 新闻消息(文/李祥敬):作为智能世界的新型基础设施,AI、5G、智能边缘和云计算等行业转折性技术将加速数字经济腾飞,为新业务的增长带来巨大发展机遇。如今,AI及数据分析为金融、健康医疗、工业、通信及交通等多行业客户开启了全新的机遇。据IDC预测,到2021年,75%的商业企业的各类应用将应用人工智能;到2025年,所有数据中将有约四分之一是实时产生的,而在这一庞大的增量中有95%的数据将通过各种物联网(IoT)设备产生。
人工智能和数据分析是未来10年的关键工作负载,快速部署AI和数据分析对当今各类企业至关重要。英特尔一直致力于不断强化处理器的内置AI加速能力和软件优化优势,以更好地为全球的数据中心和边缘解决方案提供动能,并通过打造无与伦比的芯片基石,助力释放数据中的无限洞察。
近日,英特尔宣布推出最新的数据平台产品组合,包括集成AI加速的英特尔第三代至强可扩展处理器、英特尔首个人工智能优化FPGA Stratix 10 NX、第二代英特尔傲腾持久内存、最新英特尔3D NAND SSD及相关软件解决方案,以在数据中心、云和智能边缘领域支持客户进一步加快人工智能和数据分析等工作负载的开发和部署,助力智能新基建建设,驾驭数字经济新浪潮。
英特尔市场营销集团副总裁、中国区数据中心销售总经理陈葆立表示,数据中心市场蓬勃发展,英特尔CPU是是业界唯一集成AI加速的处理器。同时,英特尔拥有全面的产品组合,实现数据中心领域的全面覆盖。
英特尔为AI与数据分析打造了无与伦比的广泛产品组合和生态系统支持。经过全面优化的全新数据平台与基于英特尔AI技术不断蓬勃发展的合作伙伴生态一道,正在帮助各类企业积极部署智能的AI和数据分析服务,从而将数据转变为企业的重要资产。
说起数据中心市场,不得不提到目前站在C位的英特尔至强处理器平台。目前,英特尔至强可扩展性处理器已出货超过3000万个,是全球部署最广泛的数据中心平台,仍然拥有95%的市场份额。
纵观英特尔至强处理器产品的路线图,就会知道至强处理器已经有二十多年的历史了。从2017年开始推出第一代至强可扩展处理器,2018年推出了代号为Cascade Lake的第二代至强可扩展处理器。今年,英特尔第三代至强可扩展处理器即将问世,该产品有两个产品系列,代号分别是Cooper Lake和Ice Lake,Copper Lake的定位是一个系统支持4-8个处理器插槽,即多路处理器,而Ice Lake的定位则是一个系统当中支持1-2个处理器插槽。英特尔预计在明年下半年会推出下一代的至强可扩展处理器,代号为Sapphire Rapids。
第三代至强可扩展处理器专为当今内置人工智能的数据密集型服务而设计。人工智能和数据密集型服务是最近这几年业界的普遍需求,也是技术发展的方向。对于人工智能的支持,在第三代至强可扩展处理器当中,英特尔进一步升级了DL Boost深度学习加速技术,同时在深度学习加速架构下的VNNI神经网络指令可以支持创新的bfloat16数据格式。
结合DL Boost以及bfloat16,英特尔第三代至强可扩展处理器平台相比上一代平台Cascade Lake最顶级的CPU 8280,在进行图像分类处理的时候,计算性能可以提高1.93倍,这是一个非常显著的提高。对于计算密集型的应用,英特尔在新的平台里可以支持更多的CPU内核和更高的CPU主频,提供更多的内存通道数、更快的内存速度、更高的内存容量。第三代至强可扩展处理器具备更强的计算能力、更大的数据存储能力,对于计算密集型的应用,相比于以往4路平台,其计算性能提高了92%,并支持第二代傲腾持久内存。
同时,针对如今云计算应用、企业应用的多样性,第三代至强可扩展处理器搭载了第二代的Speed Select技术(简称SST),可以让用户有更多的灵活性配置系统,更好地满足业务需求。SST是为了解决诸多企业客户或者互联网客户遇到的痛点。多样性的业务越来越复杂,对硬件有不同的需求,有的业务希望单线程的性能尽可能高,但它并不需要有很多的线程进行并行计算;另外有一些业务希望拥有很多的线程进行并发处理,但是对单线程要求并不高。以往应对这些不同需求的做法是量身定制,对第一类应用适配对应的CPU以及硬件配置。对于另外一类就需要再选一款CPU搭配新的机器使用。这种方式虽然可以解决问题,但是如果业务发生变化,配置就显得非常不灵活。
此外还有一种情况,随着计算密度越来越高,CPU核心数越来越多,内存越来越大,存储容量越来越高,网络带宽越来越大。用户在一台机器会部署多个业务,多个业务的优先级不一样,用户往往希望多个业务能运行在同一台机器上面,可以对不同业务设置不同的优先级,保证高优先级的业务拥有更好的性能。而在以往传统的平台上,一个CPU当中所有的核心优先级都是一样的,可以使用的资源、频率都是相同的。
基于此,英特尔推出SST技术。早在第二代至强可扩展处理器中,已有SST技术的早期雏形,在第三代至强可扩展处理器当中进一步拓展了SST。SST是一个功能集合,它提供了四种功能模式,包括SST-PP、SST-CP、SST-BF、SST-TF,解决前面说到问题。
与此同时,英特尔技术专家告诉记者,第三代至强可扩展处理器在架构层面进行诸多创新,比如UPI总线的端口数量增加到6个(即每个插槽有6个接口),两两之间就有两个UPI总线。多一个UPI带来的好处就是有更高的带宽,这样有利于支持更多的CPU内核,支持更大的内存,支持更高的计算速度,相当于有更宽的高速公路,可以让数据在不同的插槽之间传输,实现同步。在多路处理器当中,这是非常至关重要的架构创新。
在内存支持方面,第三代至强可扩展处理器每个插槽支持6个内存通道数,每个通道是可以支持到最高3200MT/s的速度。如果组建一个4路平台,即可拥有24个通道,如果是8路就是48个通道。在内存容量上,第三代至强可扩展处理器可以支持16GB颗粒的内存技术,单条内存条如果采用普通RDIMM可以支持64GB,如用LRDIMM则可以支持256G,若再搭配傲腾持久内存,每一个插槽可以支持的最大容量为4.5T。如果搭建一个4路且有4个插槽的平台,总共支持的最大的内存可以达到18T,8路则可以达到36T。如此大的数据容量、高的内存访问带宽,可以很好地支持数据密集型应用。在I/O方面,第三代至强可扩展处理器每个插槽可以支持48个PCIe 3.0通道。在多路处理器中,每个插槽支持众多通道,可以保障确保I/O的可连接性、速度以及带宽对于大多数的应用。
此外,多路处理器非常关注平台的RAS,即可靠性、可用性以及可维护性。第三代至强可扩展处理器提供了非常丰富的RAS支持,可以很好地处理可能出现的内存错误、PCIe设备上的错误,或CPU内核本身出现的错误,并实现错误隔离、故障诊断。
在人工智能技术的支持上面,第一代至强可扩展处理器Sky Lake提供了AVX-512指令集,AVX-512指令集可以用FP32的数据格式进行深度学习计算。2019年发布的第二代至强可扩展处理器Cascade Lake提供了DL Boost技术,DL Boost包含VNNI矢量神经网络指令集,VNNI支持Int8数据格式,加速深度学习的推理应用。今年,第三代至强可扩展处理器的DL Boost深度学习加速技术进一步升级,VNNI指令集可以支持bfloat16的数据格式,这样在人工智能的训练和推理上面,都可以得到更好的性能提升。
bfloat16是一个精简的数据格式,与如今的32位浮点数(FP32)相比,bfloat16只通过一半的比特数且仅需对软件做出很小程度的修改,就可达到与FP32同等水平的模型精度。新增的bfloat16支持同时为CPU的AI训练和推理性能提供加速。在英特尔的工具集当中,像TensorFlow、Pytorch、MXNet都已经可以完美来支持bfloat16的AI训练。
简而言之,在云计算、数据分析及关键任务工作负载上,第三代至强可扩展处理器可以提供更多内核、更高频率,并支持更大内存。对于数据分析的应用,相对于上一代的平台性能可以提高98%。对于人工智能应用,借助升级后的DL Boost技术,搭配bfloat16的数据格式,在人工智能的训练性能上相比上一代可以提高93%,人工智能推理方面的性能可以提高90%。针对云计算的虚拟机密度场景下,第三代至强可扩展处理器支持的内核数可以最高到28个核,如果搭配一个8路平台,可以轻松支持224个物理核,实现非常高的密度,帮助用户优化TCO。
除了CPU,英特尔还提供了GPU、FPGA、专用AI芯片等丰富的硬件产品,并与业界生态伙伴一起开发软件解决方案,给客户一个非常完整的从芯片到方案的产品组合,满足他们对于人工智能和分析这些当今最热的应用和未来计算方向的需求。
面对大数据浪潮,数据价值的实现要经历数据生产、收集、提取和计算的过程。未来存储的发展将由工作负载的需求驱动,现代存储系统需要灵活多变,存储技术也正在不断演进以满足多样化需求。这也意味着我们需要让存储的性能变得更高,从而拉近更多数据与处理器之间的距离。
为此,英特尔推出傲腾持久内存全新技术,通过让更多的数据保留在内存中(作为内存的拓展或部分替换),从而更加靠近CPU,实现了更高的效率;同时,其以类似于双列直插式存储模块(DIMM)的形式,提供接近DRAM(动态随机存取存储器)的内存计算速度,且每GB价格低于DRAM,也大大减少了企业的成本开支,最终帮助企业在效率和成本之间实现了完美的平衡。
相较于在内存容量限制下不得不使用多台服务器Scale Out(横向扩展,靠添加设备提升服务能力),Scale Up(纵向扩展,提升单台设备的性能和服务能力)可以减少服务器的数量,减少关键部件的采购,以及更多服务器集群的管理开销,英特尔傲腾持久内存从CAPEX(前期购置成本)和OPEX(运营成本)两个方面降低总体拥有成本。
傲腾持久内存可以支持更大的数据库、更高可靠性和更快地系统恢复,为处理器性能过剩、内存容量不足的场景提供足够的内存,从而减少设备数量、软件授权费用、机柜数量和能源消耗等。通过持久内存来扩展现有内存容量,可以极大降低客户业务的总成本TCO(Total Cost of Ownership)。
英特尔傲腾持久内存不但具有大内存、低延迟、持久化、高性价比的特点,同时使用模式也比较多样化,提供了App Direct Mode(AD)和Memory Mode(MM)两大类模式,由此也可以支撑更多的环境和场景化应用。
英特尔技术专家表示,英特尔把傲腾技术引入到持久内存为内存的层级带来了很大的技术革新。英特尔傲腾持久内存在内存和SSD之间新增了一个存储层级,具备像内存一样的超低访问延迟,超高寿命与可靠性,同时还具备持久化存储和按字节访问的能力。在AD模式下,特定的应用程序可直接访问由英特尔傲腾持久内存带来的独立持久内存资源。
英特尔傲腾持久内存不仅可以改善系统的TCO,还可以消除I/O瓶颈,提升性能,进而驱动产生新的内存和存储的融合类应用,如超融合基础架构、数据库、人工智能或者大数据分析。这些都是英特尔傲腾持久内存能够展现技术优势的地方。
作为第三代至强可扩展平台的一部分,英特尔同时发布了英特尔傲腾持久内存200系列,为客户提供每路最高达4.5TB的容量,以进行内存数据库、密集虚拟化、分析及高性能计算等数据密集型工作负载的管理。傲腾持久内存200系列提供的CPU对持久性数据的访问速度比主流NAND SSD读取数据快200倍以上。与第一代产品相比,英特尔傲腾持久内存200系列的平均内存带宽增加了25%。
上一代傲腾持久内存配合第二代至强可扩展处理器,单路最高能放6条512GB持久内存,最大3TB持久内存。200系列能在单路第三代至强可扩展处理器上提供最高4.5TB内存,包括3TB的傲腾持久内存和普通的DRAM内存,单条可用容量没变,有128GB,256GB和512GB三个型号,支持与普通DRAM公用内存插槽,支持两种内存的混插。
从通用型CPU到GPU,从可编程加速产品FPGA到ASIC专用芯片,英特尔“以数据为中心”的产品组合不断扩展,支持客户从云、网络、边缘到端的智能部署,奠定云计算、人工智能、5G网络转型和智能边缘等多领域创新的数字基石。
在整个计算平台当中,特别是在数据中心的计算平台当中,英特尔至强平台的通用性和可扩展性是最好的,支持着丰富多彩的各种各样的AI任务。
在支持整个AI数据处理的管道上面,英特尔至强平台能够提供最完整、最充分的支持平台。客户AI的创新已经在英特尔至强平台上得到了非常好的支持。
前面已经说过,针对当前留下的人工智能工作负载,第三代至强可扩展处理器进行了性能和架构的优化改进。而且现在AI不光对数据计算有着更高的要求,也对数据的承载提出了越来越高的要求。
今天在AI处理过程当中,我们通常是跟大数据结合在一起的。要让AI的性能充分发挥,英特尔傲腾持久内存的内存技术可以扮演非常重要的角色。
第三代至强可扩展处理器结合英特尔傲腾持久内存,在AI应用中能够充分发挥英特尔的存储性能,在AI计算和存储结合过程当中,使得计算性能越来越好,同时TCO也能够实现大幅优化。
英特尔至强平台对AI性能的支持是持之以恒的,而且英特尔与生态合作伙伴进行紧密配合,基于第三代至强可扩展处理器开展更多创新应用实践。比如英特尔与蚂蚁金服基于3D-CNN I3D Video的深度学习模型进行AI应用开发部署。
同时,英特尔还与东软、卫宁、盈谷、汇医慧影等行业伙伴一起落地医疗AI,在影像医疗诊断、病理切片分析、药物研发等应用场景中引入AI技术,加速医疗健康和人工智能融合的过程。
在短视频市场,快手如今迈入了Top级大型互联网公司的行列。AI在其业务中扮演了重要的角色。快手通过开展基于英特尔傲腾持久内存、英特尔至强可扩展处理器及英特尔FPGA在快手AI应用中的实践,双方共同建立起强大的IT系统,推动业务不断发展。
综上所述,第三代至强可扩展处理器针对AI进行了非常充分的优化,可以非常完美地胜任AI计算任务。同时,依靠平台化优势以及生态链当中丰富的软件支持,越来越多地行业用户在英特尔架构平台上进行AI应用创新,这个创新现在不仅在云端发生,也在边缘端发生。
20多年来,英特尔持续推动数据中心领域的创新。凭借软硬结合的优势、规模化的能力以及与客户的深厚合作,英特尔灵活创新的产品和解决方案经过了客户的实战考验,并在广泛的应用中被成功验证。
随着以数据为中心的转型不断深化,英特尔将以集成AI加速的至强可扩展平台为基石,提供全面的XPU芯片平台,携手产业生态,赋能“智者更强”,以改变世界的技术造福个人、企业和社会。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。