步入万物数字化时代,数据已经成为与土地、人口、能源并重的战略资源。与此同时,云计算、人工智能、5G、物联网等新兴ICT技术的出现,一方面极大加速了数字经济的发展,另一方面其带来的海量非结构性数据也为信息存储带来新的挑战。曾以存储芯片起家的英特尔,如今已是半导体行业的领军者,然而秉承对存储市场的承诺,在摩尔定律的启迪下,英特尔再次以技术创新成为存储市场的“破局者”。
全面突破存储“瓶颈”
随着企业数字化转型的进行和后疫情时代的转型加速,计算需求大幅增加。同时,现阶段摩尔定律依然引领着数字世界的发展。不仅每一代新处理器的内核数量几乎比上一代翻一番,其中,每个CPU内核使用的数据也在与日俱增,与之而来则是巨大的内存需求。尽管制造商已经通过提高密度持续增加存储容量,但随着时间的推移,性能或每 TB 容量的每秒读写次数(Input/Output Per Second,IOPS)却逐渐下降,无法匹配处理器的发展节奏,因此由此造成了内存和存储瓶颈。
基于此,英特尔数据中心与人工智能事业部副总裁兼英特尔傲腾事业部总经理 David Tuhy在近日出席由DOIT传媒举办的2022分布式存储线上峰会时,发表主题演讲并指出,“为解决架构问题,现阶段诸多用户选择将数据进行分层存储,将热数据存放在DRAM中,冷数据置于磁盘中,这就形成了DRAM-SSD-HDD由上而下的结构。然而,由于容量、时延和带宽这三个层面的问题,该架构层级之间仍存在鸿沟有待填补。基于此,英特尔创新性地打造了基于3D Xpoint存储介质的革命性的傲腾技术,一举改变了传统的内存和存储层级结构。通过缩小差距、减少瓶颈和解决数据延迟,使内存更靠近计算,为数据中心提供更高的灵活性和更多的价值。”
英特尔傲腾在DRAM和HDD之间创建了一个关键的内存层,以通过集内存般的性能、数据的持久性和存储的大容量于一身的特性,将更多数据放到更接近CPU的位置。英特尔傲腾作为高性能存储,在与NAND SSD形成良好性能互补的同时,亦能够为至强可扩展平台带来了突破性的存储级内存能力,进而助力摩尔定律在CPU层面的效率实现,同时缓解DRAM容量压力。
此外,英特尔亦通过打造CXL开放互连技术(Compute Express Link Open Interconnect Technology, CXL),在CPU和工作负载加速器(如GPU、FPGA和网络)之间创建了高速、低延迟的互连性,并基于第五代PCI Express的强大基础设施和高带宽的支持,使设备之间能够实现内存一致性,允许资源共享,从而获得更高的性能、降低软件堆栈复杂性,以及更低的总体系统成本。
对此,David Tuhy指出:“内存分层能够为用户带来极大的性能和成本优势,基于此英特尔正在采用CXL标准,以便可以继续通过 PCI Express上的新CXL协议来提供内存分层和内存扩展。同时,对于想要在新总线上引入内存分层和存储分层的用户而言,CXL还将进一步拓展优势,带来更多创新技术和可能性。”
携手合作伙伴,加速数据洞察
“英特尔傲腾技术是专为适应工作负载的不断演进而生。”David Tuhy在演讲中强调道,“面对工作负载访问能力、空间局部性和性能等多种影响因素的动态变化,基础架构投资回报是用户关注的重中之重。我们注意到随着向每单元更高比特数发展,行业用户越来越多采用傲腾作为低成本存储层级以实现更高的回报率。同时,也有更多使用傲腾的公司宣布推出和开发相匹配的软件解决方案,以专门支持这种内存分层的CXL版本。”
与英特尔在云计算、人工智能等多领域展开深入合作的百度也积极采用傲腾持久内存,并利用其持久特性构建弹性块云中的超高级别和超高性能存储产品。其中,百度不仅将英特尔傲腾持久内存作为缓存层的存储介质,也在新的单节点引擎采用傲腾PMem存储元数据、缓存和索引,并与持久内存开发套件PMDK及存储性能开发套件SPDK配合使用。一方面,这能够让用户通过预先构建好且非常灵活的库解决方案来使用内存分层和存储分层,从而让应用更简单便捷。另一方面,基于软件工具和调优,它们在同一个节点上能够实现高达10-30倍、甚至更高的性能跃升。
作为十多年的合作伙伴,近期阿里云宣布推出集傲腾固态盘P5800X和QLC于一身的弹性计算本地盘的新版本—高带宽低延迟本地盘D3C实例。D3C实例能够让QLC在高密度本地磁盘应用上实现了极高的性能、低延迟和创新演变,同时针对QLC可能出现的一些极端情况,双方亦携手构建云存储转换层(CSAL)的软件层进行应对。此外,极具性能优势的D3C也能具备固态硬盘的成本优势,能够在产品目录中为想要构建基于Hadoop和Spark特定实例集的用户创建一个新的分层。与此同时,英特尔傲腾亦被应用于阿里云开源大规模稀疏模型训练/预测引擎DeepRec中。基于傲腾持久内存实现的内存分配器的大模型训练性能有所提升,且能够极大降低整体拥有成本。DeepRec现阶段已支持淘宝搜索、推荐、广告等核心业务进行千亿特征、万亿样本的超大规模稀疏训练。
去年底,英特尔亦携手腾讯云以全新的存储引擎设计和傲腾持久内存推出了腾讯云极速型SSD云硬盘产品,以更佳的带宽、更低的时延和更高的IOPS为性能密集型用户业务场景打造极速云存储体验。与传统 DRAM 内存相比,傲腾持久内存的高存储密度和低单位存储成本特性,能够帮助用户更为经济地扩展云存储能力;同时App Direct 模式下的傲腾持久内存所具备的持久性特性,使之可以有效充当CBS产品的数据持久化存储载体。
尽管面世尚不到3年时间,得益于英特尔傲腾能够帮助用户降低内存和存储基础设施成本、提高存储基础设施系统利用率及性能,并大幅度加速用户获取结果和洞察的时间,现阶段其已经被全球约75%的大型公有云和私有云服务商采用以及赢得其订单。同时,随着被投入大规模应用,英特尔傲腾技术亦构建起了一个集全球OEM、SI、CSP、CoSP和软件开发商在内的庞大生态。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。