过去几年以来,英特尔公司一直不遗余力地强调其进军离散GPU市场的计划,目标自然是阻击已经在消费级PC以及数据中心领域大放异彩的AMD与英伟达显卡。从历史角度来看,英特尔公司其实习惯于藏起前瞻性产品的细节信息,并在临近上市时突然公布,从而获得爆炸式的宣传效果。但作为GPU市场上的后发者,英特尔与PC游戏以及技术爱好者社区进行了直接接触,解答并提出关于离散GPU计划的问题,甚至先后披露了上市策略、下一代GPU架构、即将实现的功能与性能目标乃至未来显卡设计的渲染图。这一系列操作下来,实在让人有点不太适应。
英特尔离散GPU概念图。
英特尔曾经表示,计划在2020年年内正式进军离散GPU市场。为此,芯片巨头当然需要提前准备,确保已经完成能够接受验证测试与试用的内部可用芯片方案。就目前来看,英特尔方面似乎做好了战斗准备。事实上,在最近的财报电话会议上,英特尔公司CEO Bob Swan确认了其下一代离散GPU(从技术角度讲,这也是英特尔首款离散GPU)已经完成工厂试生产并开始接受初步通电验证。
在会议当中,Swan表示“今年第三季度,我们还发布了首款10纳米Agilex FPGA。2020年,我们将继续通过多款振奋人心的新产品扩展10纳米产品组合,其中包括AI推理加速器、5G基站SOC、用于服务器存储及网络的至强CPU,外加一款离散GPU。本季度,我们已经成功完成了首款离散GPU,即DG1的通电测试。”Swan又进一步补充称,这一成就堪称“重要的发展里程碑”。
几个月之前,泄露的英特尔显卡驱动程序信息让我们得以一窥下一代Rocket Lake处理器的真容,其指向的正是第12代英特尔GPU。当时,人们猜测新一代GPU将包含128到512个处理单元,用于提供低功耗与高功耗两种图形解决方案。其中一款GPU将带有DG1标识,因此目前芯片巨头强调的离散解决方案可能正是上述设计的一款衍生产品。当然,作为第一款离散GPU,DG1有可能只是入门级产品,甚至是单纯的开发工作。
就在Swan发布声明的同时,Twitter上也出现了英特尔图形技术团队几位主要成员的神秘推文。英特尔公司高级副总裁、首席架构师兼架构、图形与软件总经理Raja Koduri在Twitter上发文称,“ It’s been quite a Dash”。有人猜测,大写Dash中的“D”肯定有着某种含义。截至目前,大多数关注者已经认定DG1代表的是“离散GPU 1号”,但D也有可能代表Dash、也就是破折号。英特尔公司图形与视觉技术高层总监Chris Hook则在推文中指出,“它活了!”这显然是取自小说《弗兰肯斯坦》中,科学怪人在通电后获得生命的重要瞬间。
英特尔公司图形技术与产品集团副总裁Ari Rauch则就离散GPU发表了多条推文,他的表述可就直白多了。一条推文提到,“我为我们工程技术团队达成的DG1发展里程碑感到自豪。我们还有很长的路要走,但现在的这一步无疑至关重要。”其他英特尔人士也发表了类似的观点。
英特尔公司Ari Rauch接连发推。
由于Swan在今年第三季度(截至9月30日)的财报电话会议上披露了DG1项目,我们可以假定英特尔已经在10月之前完成了这款离散GPU的开机通电验证。换句话说,又是近一个月过去,英特尔方面可能已经开始在该GPU上运行3D应用进行实际测试。当然,这一切都只是猜测。
无论实际情况如何,英特尔公司的离解GPU计划确实在不断推进;而且几乎可以肯定的是,目前的所有努力,都是为了实现芯片巨头定下的2020年发布离散Xe GPU的目标。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。