如今无论所见何处,数据密集型应用都在以惊人的速度增长着,而Nvidia是身处于这一发展趋势核心的公司之一,最近,Nvidia因其生产的AI芯片而一路走高。

前不久Nvidia举办了一场分析师简报会,Nvidia公司数据科学工程高级总监John Zedlewski介绍了Nvidia是如何实现加速计算,本文包含了对这次简报会的一些观点。
几十年前,Nvidia就处于加速计算的基础层上,那个时候Nvidia取得了很大的进步,并且在过去的一两年里速度大大加快。谈到系统架构,John提出了一个有趣的观点。
他说:“所有这些硬件都很棒,尽管有时候有些奇特,但如果没有软件来运行硬件的话,就不会取得成功。我们希望让开发人员能够轻松地从这个极其复杂的硬件中获得最大性能,并让这样的性能轻松融入到您的应用领域。”
Zedlewski指出,Nvidia将产品打包在Nvidia AI等平台和端到端框架中,例如用于大型语言模型的Nemo和用于医学成像的Monet。大多数人认为,Nvidia是一家GPU制造商,尽管Nvidia在这个领域可以说是一流的企业,但它的系统方法领先于竞争对手英特尔和AMD。
Nvidia将GPU与软件开发套件、加速库、系统软件和硬件打包在一起,形成端到端的解决方案,这简化了使用Nvidia技术的过程,几乎变得“即插即用”。
他补充说,在训练大型语言模型之前,首先要确定所需的数据集(甚至可能与互联网上的所有文本一样广泛),这会带来大量数据科学和数据管理方面的问题。
他说:“如果你想有效地做到这一点,如果你希望能够迭代、细化和改进你的数据,你就需要一种加速它的方法,这样你就不必为每次迭代而等待数月了。我们总是从预测合作伙伴那里听到这样的说法。他们说,‘看,我们的遗留系统非常擅长每月和每周的预测。’”
这些合作伙伴需要一种方法来构建模型并且更快地运行这些模型以便进行预测,而不是每月、每周、甚至是每天,他们需要做到实时。速度在欺诈检测、基因组学和网络安全等其他应用中也是至关重要的,这些应用必须随着事件的展开而分析大量数据集。数据科学家使用的工具无法满足梳理大量数据存储的需求。
Nvidia的Triton是一个专门用于深度学习推理的开源推理平台,经过增强之后可以支持数据科学家和机器学习工程师仍在整个行业构建的许多基于树的模型。
Zedlewski表示:“我们越来越多地看到人们对包含矢量搜索的部署框架很感兴趣,无论是具有矢量搜索组件、图像搜索还是推荐系统的大型语言模型,所以我们还有RAPIDS Raft的矢量搜索加速器。”
Nvidia让数据科学家们能够轻松处理具有数亿行的数据集。而且Nvidia还认识到,没有一种工具可以包揽一切,因此Nvidia拥有100多个开源和商业软件集成。Zedlewski表示,这些集成是为了使各项工作顺利无缝地展开,从而让构建复杂的多组件管道变得更加简单。
Nvidia的GitHub开源项目有350名贡献者。Zedlewski表示,有超过25%的财富500强企业在使用RAPIDS,企业采用率还在不断上升。使用RAPIDS的公司包括Adobe、沃尔玛和AstraZeneca。
其中,沃尔玛使用CPU模型无法做大每晚在固定窗口中处理足够的数据来预测有多少易腐烂的商品运送到他们的商店——这一决定可能会产生重大的财务影响。因此,为了适应时间窗口,沃尔玛的数据科学家牺牲了他们的模型质量。
这种方法行不通,因此沃尔玛成为RAPIDS的首批用户之一。结果,沃尔玛利用RAPIDS将特征工程速度提高了100倍,模型训练速度提高了20倍。
Zedlewski告诉我,他从大型合作伙伴那里听说,当他们尝试在模型中集成图形特征的实验方法或者是在必须提供数据时集成图形分析步骤时,这会提高模型的准确性,特别是对于欺诈和网络来说。
对于这样的挑战,RAPIDS cuGraph可以进行现代图形分析所需的预处理、后处理和传统算法。在此过程中,它可以支持数万亿个以上的边缘图,所有这些都可以与熟悉的应用编程接口配合使用,发生速度比CPU快85倍。
RAPIDS RAFT加速器可以解决一个具有挑战性的问题——筛选数亿甚至十亿的内容,可能是一个产品、一张图像或者一段文本——并建立在最近邻和接近于最近邻方法的基础上,使得吞吐量提高10倍,构建时间提高33倍,让过去需要消耗大量服务器的事情现在可以用一台机器即可快速完成。
关于Nvidia RAPIDS是否与超以太网联盟进行了集成(该联盟有望比InfiniBand更好地加速计算和人工智能),Nvidia方面表示:“我们都认为以太网需要在AI时代取得发展,而我们的Quantum和Spectrum-X端到端平台已经体现出这些AI计算结构的优点,这些平台将继续发展,我们将支持可能出现的新标准。”
话虽如此,网络供应商几十年来一直在尝试取代InfiniBand,但仍然无法取代以太网来实现高性能工作负载。Nvidia一直致力于为客户提供最好的服务,因此如果超以太网确实兑现了承诺,相信Nvidia一定会提供支持的,在此之前,久经考验的InfiniBand还将存在下去。
如今我们几乎每天都看到快速的发展,但重要的是要记住,我们正迎来加速计算的黎明,这有点像1994年的Web,我们看看未来30年我们会走向何方吧。
好文章,需要你的鼓励
Python通过PEP 810提案正式引入惰性导入功能,允许程序延迟加载导入库直到实际需要时才执行,而非在启动时全部加载。该提案由指导委员会成员Pablo Salgado于10月3日提出并于11月3日获批。新功能采用选择性加入方式,保持向后兼容性的同时解决了社区长期面临的启动时间过长问题,标准化了当前分散的自定义解决方案。
蒙特利尔多机构联合研究团队通过AInstein框架首次大规模验证了大语言模型的科学推理能力。研究使用1214篇ICLR论文测试AI提取研究问题和生成解决方案的能力,发现顶级AI模型成功率达74%,能够提出创新性技术方案而非简单模式匹配。研究证实AI具备真正的科学推理能力,但也揭示了其对问题表述敏感、推理稳定性有限等局限性。
Valve最新Steam硬件软件调查显示,Linux用户占比达到3.05%,较上月增长0.37个百分点,相比去年同期增长约50%。游戏网站Boiling Steam分析显示,Windows游戏在Linux平台兼容性达历史最高水平,近90%的Windows游戏能在Linux上启动运行,仅约10%游戏无法启动。
这项研究提出了MADPO方法,解决了AI训练中的"一刀切"问题。传统方法对所有训练案例使用相同强度,导致简单案例过度学习、复杂案例学习不足。MADPO通过两步训练:先评估案例难度,再据此调整学习强度,实现"因材施教"。实验显示该方法在不同质量数据上均有显著提升,最高达33.3%,为AI精细化训练提供了新思路。