埃森哲近日宣布推出基于Nvidia新AI Foundry服务开发的Accenture AI Refinery框架。该产品旨在使客户能够使用 Llama 3.1 模型构建定制的大型语言模型,使企业能够使用自己的数据和流程完善和个性化这些模型,以创建特定领域的生成式 AI 解决方案。
生成式AI走向Nvidia AI Foundry的旅程
在一次简报会上,Nvidia公司AI软件副总裁Kari Briski表示,她经常被问及生成式AI相关的问题。
“这是一段旅程,是的,生成式AI是一项巨大的投资。企业会问,‘我们为什么要这样做?用例是什么?’当你想到员工生产力时,你是否希望自己一天有更多的时间?我知道我会的。也许如果有10个人,你可以完成更多的事情。这就是生成式AI的用武之地——自动执行重复、平凡的任务,例如总结、最佳实践和后续步骤。”
AI Foundry:全面的基础设施
“Nvidia AI Foundry是一项服务,使企业能够使用加速计算和软件工具,结合我们的专业知识来创建和部署可以为企业生成式AI应用增强的自定义模型,”Brisk说。
AI Foundry平台提供了用于开发和部署自定义AI模型的基础设施,包括:
Brisk表示,一旦企业定制了模型,就必须对其进行评估。她指出,这正是一些客户陷入困境的地方。她提到了她从客户那里听到的一些话:“‘我的模型做得怎么样?我只是定制了它。它能做我需要的事情吗?’因此,NeMo为客户提供了多种评估方式,除了学术基准,你还可以上传自己的自定义评估基准,可以连接到第三方人工评估者生态系统,还可以使用大型语言模型来进行评判。”
行业采用
正如Brisk在简报中指出的那样,有几家公司正在使用AI Foundry,包括Amdocs、Capital One和ServiceNow。据Nvidia称,这三家厂商正在将AI Foundry集成到他们的工作流程中,而且他们通过开发结合行业特定知识的定制模型获得了竞争优势。
Nvidia NIM的优势
Nvidia的NIM具有Briski提及的一些独特优势。
她解释说:“NIM是一个通过标准API访问的定制模型和容器,这是我们多年工作和研究的成果。”她在Nvidia工作了八年时间,期间Nvidia也一直在研究它。
“它是基于云原生堆栈的,可以在任何GPU上开箱即用,其中涵盖了我们1亿多台Nvidia GPU的安装基数。有了NIM,你就可以非常快速地定制和添加模型。”
她补充说,NIM现在支持Llama 3.1,包括Llama 3.1 8B NIM(单GPU大型语言模型)、Llama 3.1 70B NIM(用于高精度生成)和Llama 3.1 405B NIM(用于合成数据生成)。
部署定制的大型语言模型
此外,埃森哲宣布与Nvidia合作开发AI Refinery框架,该框架是运行在AI Foundry上的。埃森哲表示,该框架推动了企业级AI领域的发展。该框架集成在埃森哲的基础模型服务中,承诺帮助企业开发和部署根据其需求量身定制的大型语言模型。据两家公司称,这个框架包括了四个关键要素:
战略重要性和影响
埃森哲的AI Refinery框架有机会改变企业职能,从营销开始,然后扩展到其他领域,能够快速创建和部署针对特定业务需求的生成式AI应用,彰显了埃森哲对创新和转型的承诺。在向客户提供框架之前,埃森哲内部应用了该框架,展示了它所看到的潜力。
重塑企业
埃森哲董事长兼首席执行官Julie Sweet在公告中强调了生成式AI在重塑企业方面的变革潜力,强调了部署由定制模型驱动的应用以满足业务优先级和推动全行业创新的重要性。
此外,Nvidia公司创始人、首席执行官黄仁勋指出,埃森哲的AI Refinery将提供必要的专业知识和资源,帮助企业创建定制的Llama大型语言模型。
最后的一些想法
埃森哲推出的AI Refinery框架可能对企业采用和部署生成式AI至关重要。通过采用Briski在简报中大加赞赏的Llama 3.1模型和AI Foundry的功能,埃森哲使企业能够创建高度定制且有效的AI解决方案。
随着企业继续探索生成式AI的潜力,埃森哲AI Refinery等框架将在实现定制且有效的AI解决方案方面发挥关键的作用。
埃森哲与Nvidia之间的合作有望推动AI技术的进一步发展,为企业提供增长和创新的途径,也强调了所有AI道路都通向Nvidia。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。