ZDNet至顶网服务器频道 06月25日编译:英特尔公布关于其下一代“Knights Landing”至强Phi多核心处理器的更多细节信息,其中包括名为英特尔Omni Scale Fabric的全新高速互连技术以及封装在芯片中的美光Gen2 Hybrid Memory Cube(简称HMC)DRAM——其最大容量为16GB。
英特尔的Silvermont凌动处理器微架构开始向高性能计算领域迈进
“英特尔通过将Omni Scale Fabric集成到Knights Landing当中的方式对高性能计算系统的基础构件进行了重新构建,从而为高性能计算业界带来重要的发展转折与里程碑,”英特尔公司副总裁兼工作站及高性能计算业务总经理Charles Wuischpard在一份声明中指出。“Knights Landing将作为第一款真正的多核心处理器,旨在解决目前困扰用户的内存与I/O性能挑战。”
这套新的结构不仅将被用在Knights Landing处理器当中——根据英特尔方面的说法,它计划于2015年年底开始与“超过60个基于高性能计算强化型Silvermont架构的计算核心”相对接——不过同时也将被纳入到“未来的14纳米英特尔至强处理器”当中。
英特尔方面指出,Omni Scale Fabric以该公司的“内部创新”成果以及从克雷与QLogic收购获取的知识产权为基础。“除此之外,”芯片巨头报告称,“目前主控交换机制中的传统电子收发技术已经被基于英特尔Silicon Photonics的解决方案所取代,从而提高端口密度、简化线缆排布并降低使用成本。”
英特尔公司同时声称,那些当前正在使用英特尔True Scale Fabric InfiniBand技术的客户将迎来更多好消息:利用现有结构方案的应用程序将能够与即将面世的Omni Scale Fabric相兼容,英特尔还将“提供计划”以保障Omni Scale Fabric正式推出后的全面升级流程。
一直关注英特尔“Knights”系列多核心处理器开发动向的朋友们可能还记得,它们实际上脱胎自当初被弃用的图形处理项目Larrabee、并于2010年正式被划归Knights Ferry“开发平台”之下,其首个商用版本是2011年上市的基于奔腾核心的Knights Corner产品。
该芯片原本被称为“多集成核心”处理器,也就是我们所熟知的缩写词“MIC”。不过这一称谓在2012年遭到淘汰,英特尔方面决定重新为其建立“至强Phi”品牌——也许这是因为连英特尔自己也不知道到底MIC应该被称为“Mick”还是“Mike”。
英特尔最初于去年十一月首次讨论Knights Landing,并表示该方案将同时推出PCIe卡上的协处理器/加速器版本——这一点与其前辈“Knights Corner”至强Phi一样——以及可接入插槽并用于系统启动的CPU版本。
在去年十一月的声明当中,英特尔还透露称Knights Landing将同时包含内存与多核心芯片,二者共同存在于封装当中。而就在本周一,芯片巨头表示内存机制的开发工作由美光方面负责并将基于后者的Gen2 Hybrid Memory Cube技术。
“美光与英特尔事实上已经就内在立方技术合作了很长一段时间,”美光公司HMC技术战略官Mike Black在接受采访时指出。“我们已经在IDF 2011大会上展示了一套技术平台,并在那里第一次将HMC推到公众面前。”
让内存与CPU核心尽可能接近一方面是出于数据传输速度的考量——“速度比原本高出一个量级,”Black强调称——同时也能够降低借由硅通孔(简称TSV)实现的内存分区访问所带来的能源消耗量。
想要获得出色的DRAM数据吞吐能力?美光的3D Hybrid Memory Cube能够实现这一目标
事实已经证明,硅通孔在制造层面的难度相当之高,这主要是因为我们很难保证其准确、均匀地从底部贯通到顶部。不过根据Black的说法,“我们在过去十年当中一直致力于研究硅通孔技术,并在过去三到四年内取得了长足的进步。”他坦言,美光在硅通孔开发的早期阶段确实遭遇到一系列“挑战”,但“目前大多数企业的实际使用证明了硅通孔是一项相当可靠的技术成果。”
被Black描述为“高性能封装内存”的3D-内存堆栈属于逻辑层(基于IBM 32纳米逻辑制程)的组成部分,在此基础上美光利用30纳米制程在芯片中加入了四个或者八个内存阵列。每一个内存层都提供4Gb DRAM,因此其整体容量密度可达2GB或者4GB。
目前八层堆栈已经是3D内存堆栈所能达到的上限,他告诉我们,并表示堆栈层数越高、由此带来的额外开发工作也就越繁重——不过他同时指出,“我们的客户将享用到我们技术能力所能达到的极限”,从而在尽可能小的芯片体积内最大程度获取内存容量。
在基础层中纳入内存逻辑还带来一项额外的优势。“由于我们已经设置了逻辑制程,”Black表示,“因此我们能够实现更出色的先进性与弹性;我们可以在运行过程中对内存堆栈本身进行调整,从而避免即将被触发的事件出现资源不足以及运行故障。”
英特尔目前还没有就Knights Landing产品线的插槽或者PCIe版本放出定价信息,不过根据Black对于HMC的说明,将额外3D内存作为封装DRAM的设计并不会给将于明年推出的全新多核心处理器产品带来价格提升。
“从总体持有成本角度来看,”他解释称,“相较于目前的现有内存平台,HMC其实处于低成本内存实施区间。”Black这里所指的“实施”效果,意味着高性能封装内存所能达到的出色内存带宽:高达DDR3的15倍以及DDR4的5倍。
好文章,需要你的鼓励
这项研究提出了HoPE(混合位置编码),一种针对视觉语言模型的新型位置编码技术,专门解决长视频理解的挑战。传统位置编码技术在处理长视频时表现不佳,HoPE通过两个创新解决了这一问题:混合频率分配策略(为空间信息分配高频,时间维度使用零频率)和动态时间缩放机制(根据视频速度灵活调整时间编码)。实验证明,HoPE在长视频理解和检索任务上分别提升了8.35%和22.23%,为AI更准确理解长视频内容开辟了新途径。
东京大学研究团队推出MangaVQA基准和MangaLMM模型,专门用于评估和提升AI对日本漫画的理解能力。MangaVQA由526个高质量手动创建的问答对组成,用于评估AI系统对漫画内容的深入理解;MangaOCR则专注于漫画页内文本识别。基于这两个基准,研究团队从开源多模态模型Qwen2.5-VL微调出MangaLMM,能同时处理文本识别和内容理解任务。实验显示,即使是GPT-4o等顶尖商业模型在处理漫画的独特复杂性时也面临挑战,而专门训练的MangaLMM表现出色。
这项研究由ISTA和谷歌研究院联合开发的"影响力蒸馏"方法,通过利用二阶信息为训练样本分配最优权重,实现了大语言模型训练数据的高效选择。该方法在数学上有坚实理论支持,并创新性地引入"地标"近似技术,仅需计算少量样本的精确影响力,再高效传播到其他样本,大幅降低计算成本。实验证明,该方法在多种模型和任务上均优于或匹配现有技术,同时实现了高达3.5倍的速度提升,为大模型训练开辟了更高效的路径。
来自哈佛大学等顶尖学府的研究团队在这篇论文中挑战了传统观念,认为Token压缩不仅仅是提高AI模型运行效率的工具,更应成为生成式AI模型设计的核心原则。研究表明,精心设计的Token压缩策略可以促进多模态深度整合、减轻AI"幻觉"问题、增强处理长序列输入的能力,并提高训练稳定性。论文详细分析了现有方法的局限性,并提出了算法创新、强化学习指导和硬件协同设计等未来研究方向。