英特尔展示基于10纳米的PC、数据中心和网络系统,支持人工智能和加密加速功能的下一代“Sunny Cove”架构,以及业界首创的3D逻辑芯片封装技术
加州圣克拉拉,2018年12月12日——在英特尔“架构日”活动中,英特尔高管、架构师和院士们展示了下一代技术,并介绍了英特尔在驱动不断扩展的数据密集型工作负载方面的战略进展,从而为PC和其他智能消费设备、高速网络、无处不在的人工智能(AI)、云数据中心和自动驾驶汽车提供支持。
同时,英特尔展示了一系列处于研发中的基于10纳米的系统,将用于PC、数据中心和网络设备;并预览了其他针对更广泛工作负载的技术。
英特尔还分享了聚焦于六个工程领域的技术战略,对这些领域的重大投资和技术创新,将推动技术和用户体验的飞跃。这六大工程领域包括:先进的制造工艺和封装;可加速人工智能和图形等专门任务的新架构;超高速内存;超微互连;嵌入式安全功能;以及为开发者统一和简化基于英特尔计算路线图进行编程的通用软件。
这些技术共同为更加多元化的计算时代奠定了基石,到2022年,潜在市场规模将超过3000亿美元。
英特尔架构日上发布的重点内容包括:
业界首创的逻辑芯片3D堆叠:英特尔展示了名为“Foveros”的全新3D封装技术,该技术首次引入了3D堆叠的优势,可实现在逻辑芯片上堆叠逻辑芯片。
Foveros为整合高性能、高密度和低功耗硅工艺技术的器件和系统铺平了道路。Foveros有望首次将晶片的堆叠从传统的无源中间互连层和堆叠存储芯片扩展到高性能逻辑芯片,如CPU、图形和人工智能处理器。
该技术提供了极大的灵活性,因为设计人员可在新的产品形态中“混搭”不同的技术专利模块与各种存储芯片和I/O配置。并使得产品能够分解成更小的“芯片组合”,其中I/O、SRAM和电源传输电路可以集成在基础晶片中,而高性能逻辑“芯片组合”则堆叠在顶部。
英特尔预计将从2019年下半年开始推出一系列采用Foveros技术的产品。首款Foveros产品将整合高性能10nm计算堆叠“芯片组合”和低功耗22FFL基础晶片。它将在小巧的产品形态中实现世界一流的性能与功耗效率。
继2018年英特尔推出突破性的嵌入式多芯片互连桥接(EMIB)2D封装技术之后, Foveros将成为下一个技术飞跃。
全新Sunny Cove CPU架构:英特尔推出了下一代CPU微架构Sunny Cove,旨在提高通用计算任务下每时钟计算性能和降低功耗,并包含了可加速人工智能和加密等专用计算任务的新功能。明年晚些时候,Sunny Cove将成为英特尔下一代服务器(英特尔至强)和客户端(英特尔酷睿)处理器的基础架构。Sunny Cove的功能特性包括:
Sunny Cove能够减少延迟、提高吞吐量,并提供更高的并行计算能力,有望改善从游戏到多媒体到以数据为中心的应用体验。
下一代图形卡:英特尔推出全新的第11代集成图形卡,配备64个增强型执行单元,比此前的英特尔第9代图形卡(24个EU)多出一倍,旨在打破每秒1万亿浮点运算次数(1TFLOPS)的壁垒。从2019年开始,新的集成图形卡将与10纳米处理器一起交付。
与英特尔第9代图形卡相比,新的集成图形卡架构有望将每时钟计算性能提高一倍。凭借高于每秒1万亿浮点运算次数的性能,该架构旨在提高游戏的可玩性。与英特尔第9代图形卡相比,英特尔在此次活动上展示的第11代图形卡几乎将一款流行的照片识别应用程序的性能提高了一倍。第11代图形卡预计还将采用业界领先的媒体编码器和解码器,在有限的功耗配额下支持4K视频流和8K内容创作。第11代图形卡还将采用英特尔自适应同步技术,为游戏提供流畅的帧速率。
英特尔还重申了在2020年推出独立图形处理器的计划。
“One API”软件:英特尔宣布推出“One API”项目,以简化跨CPU、GPU、FPGA、人工智能和其它加速器的各种计算引擎的编程。该项目包括一个全面、统一的开发工具组合,以将软件匹配到能最大程度加速软件代码的硬件上。公开发行版本预计将于2019年发布。
内存和存储:英特尔介绍了英特尔傲腾技术以及相关产品的最新情况。英特尔傲腾数据中心级持久内存作为一款新产品,集成了内存般的性能以及数据的持久性和存储的大容量。这项革命性的技术通过将更多数据放到更接近CPU的位置,使应用在人工智能和大型数据库中的更大量的数据集能够获得更快的处理速度。其大容量和数据的持久性减少了对存储进行访问时的时延损失,从而提高工作负载的性能。英特尔傲腾数据中心级持久内存为CPU提供缓存行(64B)读取。一般来说,当应用把读取操作定向到傲腾持久内存或请求的数据不在DRAM中缓存时,傲腾持久内存的平均空闲读取延迟大约为350纳秒。如果实现规模化,傲腾数据中心级固态盘的平均空闲读取延迟约为10000纳秒(10微秒),这将是显著的改进。在一些情况下,当请求的数据在DRAM中时,不管是通过CPU的内存控制器进行缓存还是由应用所引导,内存子系统的响应速度预计与DRAM相同(小于100纳秒)。
英特尔还展示了基于英特尔1TB QLC NAND裸片的固态盘如何把更多海量数据从硬盘迁移到固态硬盘,从而可以更快访问这些数据。
英特尔傲腾固态盘与QLC NAND固态盘相结合,将降低对最常用数据的访问延迟。总体来说,这些对平台和内存的改进重塑了内存和存储层次结构,从而为系统和应用提供了完善的选择组合。
深度学习参考堆栈(Deep Learning Reference Stack):英特尔宣布推出深度学习参考堆栈(Deep Learning Reference Stack),这是一个集成、高性能的开源堆栈,基于英特尔至强可扩展平台进行了优化。该开源社区版本旨在确保人工智能开发者可以轻松访问英特尔平台的所有特性和功能。深度学习参考堆栈经过高度调优,专为云原生环境而构建。该版本可以降低集成多个软件组件所带来的复杂性,帮助开发人员快速进行原型开发,同时让用户有足够的灵活度打造定制化的解决方案。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。