英特尔人工智能产品集团新上任的首席技术官Amir Khosrowshahi表示,当你使用GPU水平较低的时候,业界需要新架构用于神经网络的理由就愈加明显了。
Khosrowshahi此前是Nervana System公司的共同创始人兼首席技术官,该公司在去年8月被英特尔收购,金额未对外公布。Nervana的技术迅速成为英特尔人工智能计划的核心。
Khosrowshahi详细介绍了Nervana公司是如何使用GPU的,因为“这是最先进的技术”,Nervana用它自己的汇编器取代了标准的Nvidia汇编器,因为这被Nervana视为可以生成“次优”指令。
“我们在公司发展初期是这么做的,部分是为了我们自己的发展,但后来我们意识到它比Nvidia的库要快2-3倍,所以我们将其作为开源发布了。”
Nervana的努力并没有止步于软件方面,它还创造了自己的硅芯片瞄准神经网络训练。
“神经网络是一系列预定的操作,它不像是用户与系统的交互,它是一组可以被描述为数据流图表的指令。”
据Khosrowshahi称,一些功能有助于图形处理单元执行图形渲染工作——如大量缓存,处理节点,渲染——都是多余的。
“GPU中有很多电路,这对于机器学习来说并不是必需的,随着时间推移有很多东西堆积起来。”
“你并不需要电路,这些电路在芯片中占很大比例,而且能源利用成本也很高。”
“神经网络非常简单,它是很少的矩阵乘法和非线性,你可以直接搭建硅芯片来实现。你可以搭建硅芯片专用于神经网络架构,GPU却不是这样的。”
Khosrowshahi给出的答案是正在开发的Lake Crest,英特尔将在今年向选定客户推出这个独立的加速器,随着时间的推移,它还将更紧密地与至强处理器捆绑在一起。
“这是一个张量处理器,处理矩阵操作的指令。”Khosrowshahi解释说。“所以指令集是矩阵1乘以矩阵2,通过一个查找表,而且这些大指令都是高级别的。”
“在GPU中,它是一个个的寄存器,移入另一个寄存器,做逐个元素的乘法,这是相当低级别的。”
不过Khosrowshahi表示,Nvidia近年来努力让他们的GPU更适合于神经网络,他们的人工智能芯片仍然具有大量图形功能。
“作为一家芯片厂商,我可以看出为什么这对Nvidia来说很困难,”Khosrowshahi说。
另一方面,英特尔通过收购一步步接近人工智能。
“推出一个全新的价格,这在芯片行业是一大挑战;英特尔的方式就是收购。他们收购了FPGA,所以又收购了Altera,Altera是一个非常酷的架构,专注于神经网络,所以FPGA架构对于神经网络来说是非常有趣的……当然,Nervana芯片很大程度上也是一个专注于引擎的神经网络,但是稍微脱离出神经网络一些。”
当谈到神经网络时,Khosrowshahi认为考虑在硅芯片中做蚀刻神经网络是错误的,因为其中很多功能仍然是在软件方面的。
“很多功能都是在软件的,所以即使开发了Lake Crest,针对Lake Crest的指令也不是‘神经网络,这么做’,而是这个矩阵乘以这个矩阵。”
“除了芯片之外,还有一些软件知道这是神经网络,这是训练,用户寻找不同的东西并搜索参数——当你有了神经网络系统的时候这些都是你要做的事情。”
在神经科学的大背景下,Khosrowshahi认为人工智能的重点不是重建人脑,而是超越人脑。
“人脑就是人工智能的一个例子,但这是相当有限的人工智能,我的视觉系统看到了物理世界,它知道去了解世界的统计数据。”
“如果你环顾四周,你能看到很多边缘、很多表面、阴影区等等,如果你看看大脑……主要是视觉皮层,有对这些特征敏感的神经元,所以你的人工智能了解这个世界的统计数据,并且能够对此进行推论——就像是这个杯子快要打碎,我接住了这个杯子。”
但是企业内的数据与人类互动的数据大不相同,Khosrowshahi说。
“这个统计数据是非常不直观的,所以让人工智能处理这些数据是另外一种智能了。”
“这试图向人们解释这一点,因为他们认为我们正在创造一个大脑,我们想做的超越了这一点,我们希望创造一种新的人工智能,可以理解企业、医疗等所有领域的数据统计,这些数据本质上与现实世界中的截然不同。
英特尔人工智能架构的竞争对手之一是Google定制的Tensor Processing Unit,本周Google称这种架构笔当前的GPU和CPU快15-30倍,功效高30-80倍。
本周,IBM和Nvidia也宣布IBM将从5月开始在IBM Cloud中提供Tesla的P100。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。