那……能玩《孤岛危机》吗?
现场可编程门阵列(FPGA)的灵活性优势,使其成为智能网卡、电信网络甚至是模拟复古游戏机等多种应用场景下的理想选项。
然而,AMD本周二推出的最新Versal FPGA(收购自赛灵思)可不止能模拟30年前的微处理器。这些成果希望能在芯片制造之前,对其进行全面的仿真、测试和调试。
众所周知,芯片的流片制造成本极其高昂,一旦事后发现设计缺陷则更加致命。AMD Versal系列高级产品线经理Rob Bauer在采访中表示,在新FPGA的帮助下,芯片设计人员可以“在芯片流片之前创建数字孪生,或者为计划推出的ASIC/SoC制作数字版本。他们可以提前验证,在设计周期之内提早尝试软件开发等。”
根据Bauer的解释,随着半导体行业向着2.5D和3D小芯片架构等先进封装技术的过渡,芯片制造商面临的验证压力只会越来越大。“如今的芯片设计师不再仅仅为单一芯片做验证和软件开发,而是要为基于大量小芯片的多晶粒器件做验证和软件开发。”
AMD打造的Versal Premium VP1902正是为此而生。这款大芯片的尺寸约为77 x 77毫米,拥有1850万个逻辑单元(是即将推出的VU19P的两倍)以及用于控制面操作的专用Arm核心,外加用于协助调试的板载网络。
其思路就是将计算和网络功能全部纳入进来,减少I/O、调试或控制面所占用的FPGA逻辑单元,将节约出来的单元更多用于模拟ASIC或SoC。
除了将栅极密度加倍之外,AMD表示这款FPGA还将提供2倍的传输带宽,借此在芯片仿真过程中带来更高的有效云速率。与此同时,该芯片还采用最新的小芯片架构,具体分为4个FPGA块。Bauer表示这将有助于减少数据在芯片内移动时的延迟和拥塞。
虽然这一切看似令人印象深刻,但接触过芯片仿真的朋友都清楚,与在本机硬件上直接运行相比,仿真环境往往效率极低、缓慢且昂贵。AMD的FPGA新构想也无法解决这个问题。
首先,对包含数十亿个晶体管的现代SoC进行仿真是个极耗资源的过程。Bauer表示,根据芯片的具体尺寸和复杂性,可能需要跨多个机架将数十甚至几百个FPGA连接起来。即使如此,与实体芯片的时钟速率相比,仿真系统的性能仍会受到严重限制。
根据AMD的介绍,只需24个FPGA即可模拟10亿个逻辑门;而且在横向扩展之后,最多能够以超过50 MHz的时钟速率支持多达600亿个逻辑门。
Bauer指出,有效时钟速率最终将取决于所涉及的FPGA数量。“假如用户的IP能在单一VP1902内实现,那么性能表现也会更好。”
虽然AMD这款最新FPGA主要面向芯片制造商,但该公司表示本产品也非常适合固件开发与测试、IP块和子系统原型设计、外设验证以及其他各种测试用例。
在兼容性方面,AMD公司表示这款新芯片将与他们之前的FPGA采用相同的底层VIvado ML软件开发套件。AMD还与Cadence、西门子和Synopsys等领先电子设计自动化(EDA)厂商保持合作,增加对该芯片其他高级功能的支持。
AMD的VP1902预计将在今年第三季度起向客户提供样品,并于2024年初正式投放市场。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。