大约5.41亿年前,也就是地球历史上的寒武纪时期,生命类型的急剧增加孕育了不少到现在还存活着的、或者已经灭亡了的生物家族。这是对生物形式和生态环境的一个巨大实验时期,考验这些生物能否在一个更有活力的新生态系统中生存成长。
如今,计算处理能力的增长速度(也被称为摩尔定律)正在放缓,物联网和大数据对处理海量数据的需求不断增加,引发了“计算领域的寒武纪大爆发”,催生了新一代逻辑、内存和存储设计,包括小芯片(Chipilet)、多芯片堆叠异构设备和加速器芯片等。
英特尔和AMD都在致力于将单片处理器分解为专用芯片,也就是Chiplet(较小的专用芯片),可以在多芯片模块上协同工作。两家厂商都极力追求更小尺寸的光刻工艺,但采用10纳米以下工艺制造的芯片可能会出现更多错误,让生产质量变得更加糟糕。出于这个原因,英特尔和AMD将小型光刻工艺集中在专用芯片上。对于AMD而言,最小7纳米的工艺用于制造更高密度的CPU核心,而各种采用了最小14纳米工艺的小芯片可针对其他用途。
英特尔宣布推出的Foveros Project将采用10纳米工艺,以实现节能的目的,而为新芯片采用14纳米工艺, 以满足其他更高功率的要求。英特尔表示,采用这种设计的Lakefield产品将于2019年下半年面市。
来自美国桑迪亚国家实验室的Arun Rodrigues在2019 Salishan Conference on High Speed Computing Conference大会上发表了题为《Hererogeneous Accelerators of the Memory, by the Memory, and for the Memory》的演讲。他说,我们正在进入一个极端的半导体异构时代,有很多采用专有处理器芯片的可能性和解决方案(通常被称为加速器)。
他指出,传统的计算方法并不能很好地管理内存。主内存(特别是分层内存)速度很慢,缓存效率低下,处理器远离需要处理的数据。随着摩尔定律的放缓,把单片芯片的处理任务分解到多个位置的专用芯片上的这一做法变得越来越流行。此外,支持ARM或RISC-V处理的基础设施也让这一点更容易实现、成本更低。
多个美国国家实验室已经就如何推动加速器的使用展开了代号“Project 38”的合作。该项目的一个关键特点就是所谓的分散/聚集(scatter/gather)架构。分散/聚集I/O也称为向量I/O,这种I/O方法让单个处理器从多个缓冲区顺序读取数据再写入到单个数据流,或者从一个数据流中读取数据再写入到多个缓冲区。分散/聚集指的是从给定缓冲区收集数据、或者将数据分散到这些缓冲区的过程。向量化I/O是非常有效且方便的,下面的幻灯片展示了这种概念在实践中的使用。
分散/聚集架构
分散/聚集操作在Scrachpad中完成(卸载)。Scrachpa中的数据可以重复使用,卸载了对数据的大量整数操作。如果将数据放入高速缓存中的话,还可以让这种方法变得更高效。在分析和仿真实践中,发现性能提高了15-28%,缓存未命中率降低,缓存性能提高。这种方法还可以实现内存内部的大量操作,从而提高整体性能。Arun还举例说明了这种方法给Spiking Neural Network案例带来的改善效果。
他提到了多级存储器的优点和需要权衡哪些方面,以提供更有效的带宽,但为了控制成本,就需要对多个内存进行有效的管理。他认为,自动块级交换(一种硬件辅助内存管理方法,参见下面的幻灯片)可以实现这种内存管理,而且有证据证明这种方法是有效的。
多级内存管理方法
Arun指出,这种方法最大的障碍在于软件。研究人员正在致力于使用可以扩展到其他加速器的GPU(一种特殊类型的过程加速器),此外还需要同步、数据编组、线程管理等硬件方面的辅助。
除了专用加速器芯片(GPU、TPU、IPU和其他专用、通常是FPGA支持的器件)越来越丰富之外,我们也看到业界正在越来越多地改善这项技术来堆叠半导体芯片——通常是在每个芯片上堆叠不同类型的器件,特别是针对嵌入式应用和高性能计算应用,而且互连密度也在不断提高。这催生了很多非常有趣的结构,正如另一位发言人来自NHanced Semiconductors的Robert Patti所展示的,这种异构性(他称之为LamdaFabri)会导致系统变得很复杂, 他的目标是打造一个合成的量子计算系统。
系统级异构集成
逻辑电路不断扩展所面临的局限性,导致了设计和采用逻辑及内存电路这些新方法的“寒武纪大爆发”,催生了可应对工业物联网、消费者物联网、智慧城市、和针对AI分析的大数据的新一代系统。
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。