大约5.41亿年前,也就是地球历史上的寒武纪时期,生命类型的急剧增加孕育了不少到现在还存活着的、或者已经灭亡了的生物家族。这是对生物形式和生态环境的一个巨大实验时期,考验这些生物能否在一个更有活力的新生态系统中生存成长。
如今,计算处理能力的增长速度(也被称为摩尔定律)正在放缓,物联网和大数据对处理海量数据的需求不断增加,引发了“计算领域的寒武纪大爆发”,催生了新一代逻辑、内存和存储设计,包括小芯片(Chipilet)、多芯片堆叠异构设备和加速器芯片等。
英特尔和AMD都在致力于将单片处理器分解为专用芯片,也就是Chiplet(较小的专用芯片),可以在多芯片模块上协同工作。两家厂商都极力追求更小尺寸的光刻工艺,但采用10纳米以下工艺制造的芯片可能会出现更多错误,让生产质量变得更加糟糕。出于这个原因,英特尔和AMD将小型光刻工艺集中在专用芯片上。对于AMD而言,最小7纳米的工艺用于制造更高密度的CPU核心,而各种采用了最小14纳米工艺的小芯片可针对其他用途。
英特尔宣布推出的Foveros Project将采用10纳米工艺,以实现节能的目的,而为新芯片采用14纳米工艺, 以满足其他更高功率的要求。英特尔表示,采用这种设计的Lakefield产品将于2019年下半年面市。
来自美国桑迪亚国家实验室的Arun Rodrigues在2019 Salishan Conference on High Speed Computing Conference大会上发表了题为《Hererogeneous Accelerators of the Memory, by the Memory, and for the Memory》的演讲。他说,我们正在进入一个极端的半导体异构时代,有很多采用专有处理器芯片的可能性和解决方案(通常被称为加速器)。
他指出,传统的计算方法并不能很好地管理内存。主内存(特别是分层内存)速度很慢,缓存效率低下,处理器远离需要处理的数据。随着摩尔定律的放缓,把单片芯片的处理任务分解到多个位置的专用芯片上的这一做法变得越来越流行。此外,支持ARM或RISC-V处理的基础设施也让这一点更容易实现、成本更低。
多个美国国家实验室已经就如何推动加速器的使用展开了代号“Project 38”的合作。该项目的一个关键特点就是所谓的分散/聚集(scatter/gather)架构。分散/聚集I/O也称为向量I/O,这种I/O方法让单个处理器从多个缓冲区顺序读取数据再写入到单个数据流,或者从一个数据流中读取数据再写入到多个缓冲区。分散/聚集指的是从给定缓冲区收集数据、或者将数据分散到这些缓冲区的过程。向量化I/O是非常有效且方便的,下面的幻灯片展示了这种概念在实践中的使用。
分散/聚集架构
分散/聚集操作在Scrachpad中完成(卸载)。Scrachpa中的数据可以重复使用,卸载了对数据的大量整数操作。如果将数据放入高速缓存中的话,还可以让这种方法变得更高效。在分析和仿真实践中,发现性能提高了15-28%,缓存未命中率降低,缓存性能提高。这种方法还可以实现内存内部的大量操作,从而提高整体性能。Arun还举例说明了这种方法给Spiking Neural Network案例带来的改善效果。
他提到了多级存储器的优点和需要权衡哪些方面,以提供更有效的带宽,但为了控制成本,就需要对多个内存进行有效的管理。他认为,自动块级交换(一种硬件辅助内存管理方法,参见下面的幻灯片)可以实现这种内存管理,而且有证据证明这种方法是有效的。
多级内存管理方法
Arun指出,这种方法最大的障碍在于软件。研究人员正在致力于使用可以扩展到其他加速器的GPU(一种特殊类型的过程加速器),此外还需要同步、数据编组、线程管理等硬件方面的辅助。
除了专用加速器芯片(GPU、TPU、IPU和其他专用、通常是FPGA支持的器件)越来越丰富之外,我们也看到业界正在越来越多地改善这项技术来堆叠半导体芯片——通常是在每个芯片上堆叠不同类型的器件,特别是针对嵌入式应用和高性能计算应用,而且互连密度也在不断提高。这催生了很多非常有趣的结构,正如另一位发言人来自NHanced Semiconductors的Robert Patti所展示的,这种异构性(他称之为LamdaFabri)会导致系统变得很复杂, 他的目标是打造一个合成的量子计算系统。
系统级异构集成
逻辑电路不断扩展所面临的局限性,导致了设计和采用逻辑及内存电路这些新方法的“寒武纪大爆发”,催生了可应对工业物联网、消费者物联网、智慧城市、和针对AI分析的大数据的新一代系统。
好文章,需要你的鼓励
最新数据显示,Windows 11市场份额已达50.24%,首次超越Windows 10的46.84%。这一转变主要源于Windows 10即将于2025年10月14日结束支持,企业用户加速迁移。一年前Windows 10份额还高达66.04%,而Windows 11仅为29.75%。企业多采用分批迁移策略,部分选择付费延长支持或转向Windows 365。硬件销售受限,AI PC等高端产品销量平平,市场份额提升更多来自系统升级而非新设备采购。
清华大学团队开发出LangScene-X系统,仅需两张照片就能重建完整的3D语言场景。该系统通过TriMap视频扩散模型生成RGB图像、法线图和语义图,配合语言量化压缩器实现高效特征处理,最终构建可进行自然语言查询的三维空间。实验显示其准确率比现有方法提高10-30%,为VR/AR、机器人导航、智能搜索等应用提供了新的技术路径。
新一代液态基础模型突破传统变换器架构,能耗降低10-20倍,可直接在手机等边缘设备运行。该技术基于线虫大脑结构开发,支持离线运行,无需云服务和数据中心基础设施。在性能基准测试中已超越同等规模的Meta Llama和微软Phi模型,为企业级应用和边缘计算提供低成本、高性能解决方案,在隐私保护、安全性和低延迟方面具有显著优势。
IntelliGen AI推出IntFold可控蛋白质结构预测模型,不仅达到AlphaFold 3同等精度,更具备独特的"可控性"特征。该系统能根据需求定制预测特定蛋白质状态,在药物结合亲和力预测等关键应用中表现突出。通过模块化适配器设计,IntFold可高效适应不同任务而无需重新训练,为精准医学和药物发现开辟了新路径。