戴尔近日表示,正在扩展其生成式AI基础设施和服务套件。

戴尔的生成式AI硬件现在支持更多用例包括模型调整和推理,让客户能够在他们自己数据中心内的专有基础设施上部署最新的模型。
此外,戴尔还宣布扩展生成式AI专业服务能力,涵盖了数据准备、实施和教育。戴尔还和Starburst Data展开合作,帮助客户构建现代化的开放数据湖屋,为生成式AI应用提供支持。
戴尔的Validated Design for Generative AI with Nvidia为客户提供了戴尔最先进的服务器硬件和Nvidia的AI软件以及GPU,可以作为托管在客户自己数据中心而不是云端的生成式AI模型的基础。
该解决方案诞生于戴尔和Nvidia合作的Project Helix计划,将最强大的、支持AI的Dell PowerEdge服务和Nvidia最先进的GPU以及软件(例如Nvidia AI Enterprise和Nvidia NeMo,后者是一个用于训练、定制和部署生成式AI模型的框架)结合在一起。除了硬件和软件之外,客户还可以访问大量可定制的、预训练的AI模型,无需从零开始。
戴尔Validated Design for Generative AI with Nvidia的最初重点是AI训练,但此次更新之后,还将支持模型调整和推理,意味着客户还可以在本地部署模型。新功能现已通过传统渠道提供给客户,并将于本月晚些时候提供给戴尔APEX客户。
客户借助戴尔的Validated Design for Generative AI with Nvidia,可以在戴尔PowerEdge XE9680和PowerEdge XE8640服务器以及各种Nvidia GPU之间进行选择,对于那些希望构建生成式AI模型的同时在自己服务器内保持数据安全公司来说,这是一种理想的解决方案。
Constellation Research副总裁、首席分析师Andy Thurai认为,最强大的大型语言模型(例如GPT-4)由于其庞大的规模和资源需求,都是在云端专有环境中进行训练的。然而,一些企业正在寻找方法在他们自己的环境中训练他们自己的、规模小得多的大型语言模型。Thurai表示:“他们想要一种方法,能够在更小规模上做到这一点,以及根据自己的数据微调现有模型并在自己的基础设施上进行这一切。目前这还没有实现,但当它发生的时候,就需要对基础设施进行优化。”
普林斯顿大学就是已经这么开始做的客户之一。普林斯顿大学计算机科学系Charles C. Fitzmorris教授Sanjeev Arora解释说,普林斯顿大学已经在高性能计算集群中部署了戴尔和Nvidia的硬件来开发大型语言模型。他说:“该系统让自然科学、工程、社会科学和人文学科的研究人员有机会把强大的AI模型应用到可视化、建模和量子计算等领域的工作中。”
戴尔的Generative AI Professional Services服务已经扩展到数据准备领域。戴尔的专家可以确保客户拥有最干净的、最准确的数据集,并以正确的方式格式化,为他们的AI项目提供支持。戴尔表示,该服务还确保了数据集成和高质量的数据输出。
此外,戴尔还提供了新的实施服务,帮助客户建立一个可操作的生成式AI平台,用于推理和模型定制,并加快价值实现的速度,这实际上是为那些希望在自己数据中心内运行戴尔和Nvidia AI堆栈的客户提供完全托管的服务,使客户能够专注于开发自己的AI模型。
戴尔还为那些希望培训员工了解生成AI最新发展趋势的客户提供了新的教育服务。戴尔表示,以上这些新的服务都将在本月底推出。
最后,戴尔把PowerEdge计算和存储平台与Starburst业界领先的分析软件进行集成,帮助客户构建集中式的数据湖库,更轻松地从数据中提取洞察,预计这项集成将在2024年初在全球上市。
TECHnaanalysis Research分析师Bob O’Donnell表示,很明显,企业希望使用自己的数据来训练生成式AI模型,然而他们需要大量帮助来准备数据并确保其安全。他说:“戴尔最新的生成式AI解决方案和合作伙伴关系提供了一系列广泛的功能,可以帮助企业充分利用这一潜力,弥合知识差距,确保数据驱动可识别的、有影响力的业务成果。”
尽管如此Thurai认为,如果戴尔想在本地生成式AI开发方面赢得任何关注,就必须保持耐心。“这是一个有趣的概念,但戴尔首先需要吸引客户远离云端,因为所有的大型语言模型训练组件都已经在云端建立起来,但是要在本地设置所有这些东西、从云和分布式环境进行数据准备和数据移动,可能并不适合那些胆小的人。”
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。