Nvidia正在公有云上实现人工智能和机器学习,发布了运行在VMware on AWS Cloud上的“加速GPU服务”。
这项新服务是今天在VMworld 2019大会上宣布推出的,可以轻松地将现有基于vSphere的应用和软件容器迁移到VMware on AWS Cloud上,后者是一种混合云平台,可以在AWS的公有云上运行VMware的软件定义数据中心堆栈。
这些应用一旦被重新部署,就可以通过Nvidia的高性能GPU利用包括高性能计算、机器学习、数据分析和视频处理应用等新技术。
Nvidia认为,人工智能工作负载(如图像和语音识别、财务建模和自然语言处理)最好在是在自己的GPU硬件上完成的,因为与传统的CPU相比,GPU大大加快了训练和推理时间。
这项新服务采用Amazon的EC2裸机实例和Nvidia新的Virtual Compute Server软件,并将这些与Nvidia T4 GPU相结合以加速人工智能工作负载。
Nvidia创始人兼首席执行官黄仁勋表示:“从运营智能再到人工智能,企业依靠GPU加速计算以做出给他们带来直接影响的、快速准确的预测。我们与VMware一起,正在设计最先进、性能最高的GPU加速混合云基础设施,以促进整个企业的创新。”
Nvidia表示,在VMware on AWS Cloud上运行人工智能工作负载的最大好处之一就是他们能够利用Amazon基础设施的“弹性”。这项新服务将使客户能够根据需要扩展人工智能工作负载,根据数据科学家的需求扩大和缩小他们的训练环境。
其他好处包括提高人工智能应用的安全性和可管理性,更不用说还可以提高可移动性。Nvidia表示,客户只需点击一下按钮就可以在VMware on AWS Cloud和本地环境之间迁移应用,无需停机。
市场研究公司Wikibon分析师James Kobielus表示,Nvidia与VMware的合作意味着VMware现在可以为客户提供高性能的人工智能计算基础设施,这是以前无法做到的。
“通过这种合作伙伴关系,VMware客户可以轻松地将在裸机CPU上运行的人工智能工作负载转移到运行在VMware on AWS Cloud上Nvidia最新最快的GPU虚拟化集群,这将使VMware相比其他混合云解决方案提供商(例如IBM和HPE)在运行企业客户最先进人工智能应用方面占据了优势。”
好文章,需要你的鼓励
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
微软正式确认配置管理器将转为年度发布模式,并将Intune作为主要创新重点。该变化将于2026年秋季生效,在此之前还有几个版本发布。微软表示此举是为了与Windows客户端安全和稳定性节奏保持一致,优先确保安全可靠的用户体验。配置管理器将专注于安全性、稳定性和长期支持,而所有新功能创新都将在云端的Intune中进行。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。