大约5.41亿年前,也就是地球历史上的寒武纪时期,生命类型的急剧增加孕育了不少到现在还存活着的、或者已经灭亡了的生物家族。这是对生物形式和生态环境的一个巨大实验时期,考验这些生物能否在一个更有活力的新生态系统中生存成长。
如今,计算处理能力的增长速度(也被称为摩尔定律)正在放缓,物联网和大数据对处理海量数据的需求不断增加,引发了“计算领域的寒武纪大爆发”,催生了新一代逻辑、内存和存储设计,包括小芯片(Chipilet)、多芯片堆叠异构设备和加速器芯片等。
英特尔和AMD都在致力于将单片处理器分解为专用芯片,也就是Chiplet(较小的专用芯片),可以在多芯片模块上协同工作。两家厂商都极力追求更小尺寸的光刻工艺,但采用10纳米以下工艺制造的芯片可能会出现更多错误,让生产质量变得更加糟糕。出于这个原因,英特尔和AMD将小型光刻工艺集中在专用芯片上。对于AMD而言,最小7纳米的工艺用于制造更高密度的CPU核心,而各种采用了最小14纳米工艺的小芯片可针对其他用途。
英特尔宣布推出的Foveros Project将采用10纳米工艺,以实现节能的目的,而为新芯片采用14纳米工艺, 以满足其他更高功率的要求。英特尔表示,采用这种设计的Lakefield产品将于2019年下半年面市。
来自美国桑迪亚国家实验室的Arun Rodrigues在2019 Salishan Conference on High Speed Computing Conference大会上发表了题为《Hererogeneous Accelerators of the Memory, by the Memory, and for the Memory》的演讲。他说,我们正在进入一个极端的半导体异构时代,有很多采用专有处理器芯片的可能性和解决方案(通常被称为加速器)。
他指出,传统的计算方法并不能很好地管理内存。主内存(特别是分层内存)速度很慢,缓存效率低下,处理器远离需要处理的数据。随着摩尔定律的放缓,把单片芯片的处理任务分解到多个位置的专用芯片上的这一做法变得越来越流行。此外,支持ARM或RISC-V处理的基础设施也让这一点更容易实现、成本更低。
多个美国国家实验室已经就如何推动加速器的使用展开了代号“Project 38”的合作。该项目的一个关键特点就是所谓的分散/聚集(scatter/gather)架构。分散/聚集I/O也称为向量I/O,这种I/O方法让单个处理器从多个缓冲区顺序读取数据再写入到单个数据流,或者从一个数据流中读取数据再写入到多个缓冲区。分散/聚集指的是从给定缓冲区收集数据、或者将数据分散到这些缓冲区的过程。向量化I/O是非常有效且方便的,下面的幻灯片展示了这种概念在实践中的使用。
分散/聚集架构
分散/聚集操作在Scrachpad中完成(卸载)。Scrachpa中的数据可以重复使用,卸载了对数据的大量整数操作。如果将数据放入高速缓存中的话,还可以让这种方法变得更高效。在分析和仿真实践中,发现性能提高了15-28%,缓存未命中率降低,缓存性能提高。这种方法还可以实现内存内部的大量操作,从而提高整体性能。Arun还举例说明了这种方法给Spiking Neural Network案例带来的改善效果。
他提到了多级存储器的优点和需要权衡哪些方面,以提供更有效的带宽,但为了控制成本,就需要对多个内存进行有效的管理。他认为,自动块级交换(一种硬件辅助内存管理方法,参见下面的幻灯片)可以实现这种内存管理,而且有证据证明这种方法是有效的。
多级内存管理方法
Arun指出,这种方法最大的障碍在于软件。研究人员正在致力于使用可以扩展到其他加速器的GPU(一种特殊类型的过程加速器),此外还需要同步、数据编组、线程管理等硬件方面的辅助。
除了专用加速器芯片(GPU、TPU、IPU和其他专用、通常是FPGA支持的器件)越来越丰富之外,我们也看到业界正在越来越多地改善这项技术来堆叠半导体芯片——通常是在每个芯片上堆叠不同类型的器件,特别是针对嵌入式应用和高性能计算应用,而且互连密度也在不断提高。这催生了很多非常有趣的结构,正如另一位发言人来自NHanced Semiconductors的Robert Patti所展示的,这种异构性(他称之为LamdaFabri)会导致系统变得很复杂, 他的目标是打造一个合成的量子计算系统。
系统级异构集成
逻辑电路不断扩展所面临的局限性,导致了设计和采用逻辑及内存电路这些新方法的“寒武纪大爆发”,催生了可应对工业物联网、消费者物联网、智慧城市、和针对AI分析的大数据的新一代系统。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。