英特尔近日推出了两个处理器系列,旨在为工作站、用于运行模拟和数据科学软件等任务的高端Windows台式机提供动力。
第一个处理器阵容是至强W-2400系列,其中包括了8款芯片,主要针对标准的工作站。另一个是更先进的至强W-3400系列,其中包括7款面向高级工作站的芯片。
“我们全新的英特尔至强桌面工作站平台经过独特设计,旨在释放专业创作者、艺术家、工程师、设计师、数据科学家和高级用户的创新和创造力,以应对当今最苛刻的工作负载以及未来专业工作负载的需求,”英特尔副总裁、创作者和工作站解决方案总经理Roger Chandler表示。
英特尔此次推出速度最快的处理器是W9-3495X,它有多达56个核心,最高频率为4.8 GHz。W9-3495X和英特尔上一代工作站芯片相比,运行单线程应用的速度提高了28%,多线程性能提高了120%。
W9-3495X包含4个小芯片或者说计算模块,每个小芯片中包含多个核心。英特尔是分开生产制造小芯片的,然后使用EMIB技术将这些小芯片连接到一个处理器中,EMIB让英特尔能够以比市场上类似技术更具成本效益的方式制造处理器。
为了进行计算,CPU中的小芯片需要能够相互交换数据。制造商往往是通过将小芯片放置在名为中介层的矩形硅片上来满足这一要求的,其中包含了电线,通过电线可以在处理器的不同模块之间共享数据。
中介层可实现数据快速传输,从而有助于提高处理器性能,但是制造起来可能很困难,而且成本很高。英特尔全新的W9-3495X旗舰工作站芯片中所采用的EMIB技术解决了这个问题。
EMIB采用了微型内插器,比标准的EMIB技术更易制造。据英特尔称,结果就是降低了生产复杂性和成本。
英特尔W9-3495X芯片中的4个小芯片都是位于由EMIB技术提供支持的基础层上。基础层包含了一个嵌入式的微型插入器,让数据能够在小芯片之间移动,此外还包括了将电源从安装主板传输到处理器的电线。
据报道,英特尔的EMIB技术不适用于英特尔早期的工作站处理器,只是用于提高W9-3495X的速度的。英特尔还在该芯片中实施了许多其他方面的改进。
W9-3495X配置有105MB的L3缓存,可将数据保存在靠近其逻辑电路的位置,从而减少数据传输时间,最终可以提高性能。该芯片还采用了Intel Turbo Boost Max Technology 3.0,这种机制可以将处理器中最快的核心分配到运行那些要求苛刻的应用。
英特尔此次推出的其他几款芯片也采用了EBIM技术。其他支持还包括超频,也就是把处理器频率提高到默认最高速度以上。不仅如此,一些芯片还可以对计算机内存进行超频,以进一步提高性能。
W-3400系列中的7款芯片是英特尔此次推出的两个工作站处理器系列中速度最快的,提供了12到56个核心。低端的W-2400系列中的8款芯片提供了8到24个核心。
很多工作站不仅配置了CPU,还有GPU,用于加速渲染和加速机器学习应用。英特尔芯片经常是搭配Nvidia GPU一起使用的。今天早上,Nvidia宣布多家计算机制造商计划推出工作站采用了英特尔新发布的处理器和Nvidia RTX 6000 GPU的工作站产品。
RTX 6000包含了18176个CUDA核心,其作用类似于CPU中的处理核心。该芯片还具有经过优化可运行光线追踪渲染算法的电路。第三组专用电路也就是Tensor Cores,可用于加速人工智能应用。
Nvidia表示,一些工作站将提供选项,将RTX 6000与ConnectX-6 Dx SmartNIC芯片结合使用。后者主要用于在计算机之间移动数据等网络任务,让工作站用户能够更快速地下载和共享复杂的数据集。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。