NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

作者：KYT DOTSON

NVIDIA今天宣布推出微服务，允许人工智能工程师构建可以存储和检索多种语言数据的生成式人工智能应用程序，使其更容易跨越国界障碍。

为了使生成式人工智能的跨语言数据检索更加准确，NVIDIA通过面向开发人员的应用编程接口目录，推出了使用Nvidia NeMo Retriever的多语言功能。该软件可以理解多种语言和格式的数据，并将其转化为文本，帮助实现上下文感知结果。

NeMo Retriever允许开发人员为人工智能模型建立信息摄取和检索管道，通过转换文本、文档、表格和类似信息来提取结构化和非结构化数据，并避免重复的数据块。它将信息转换成人工智能可以理解的语言，并将其插入到使用嵌入技术的矢量数据库中。

嵌入是一种复杂的信息数学表示方法，代表了词、短语和其他类型数据之间的属性和关系。在搜索或思考两个词或句子时，它可以帮助捕捉两者意义的“接近程度”，就像“猫”和“狗”很接近，因为它们都是动物，并且都是家养宠物。然而，“烤面包机”和“狗”的区别比较大，不过两者都经常出现在房子里。

NVIDIA生成式人工智能软件副总裁Kari Briski在接受SiliconANGLE采访时表示，使用 Retriever以母语嵌入和检索数据还能提高准确性。这种情况的部分原因是英语在大多数人工智能数据训练集中占主导地位。任何人如果将某些德语的内容翻译成英语，然后再翻译回德语，都会发现“翻译遗失”效应，即每次都会遗失上下文或准确性。

Briski表示：“准确性是必要的，而世界上大多数数据、开放数据恰好都是英语，这就是为什么要推动主权人工智能的原因。”“加强其他语言，让数据和检索器使用他们的自然语言，将有助于提高准确性。”

Briski表示，Retriever刚发布时，由于使用翻译软件会失去准确性，因此客户要求提供多语言支持。企业业务并非只使用一种语言。他们可能会嵌入英文文档、德文测试、日文内容，或者调入用俄文撰写的研究报告。结果是，这些信息需要通过相同的模型进行搜索，但通过的工具越多，准确性就越低。

除了摄取之外，NeMo Retriever还能对结果进行“评估和重排”，以确保答案的准确性。当通过Retriever发送查询时，它会检查矢量数据库的响应，并对检索到的信息进行排序，以便根据与查询的相关性对答案进行排序，从而提高准确性。

NVIDIA与DataStax合作，采用NeMo Retriever对免费在线志愿者众包的维基百科的内容进行矢量嵌入。利用NVIDIA提供的技术和专用软件，该公司能够在三天内将1千万个数据条目的内容矢量化为人工智能可以使用的格式，这项工作原本通常需要30 天。

其他一些NVIDIA的合作伙伴——包括Cohesity、Cloudera、SAP SE和VAST Data等已经在整合对这些新的微服务的支持，以支持大型多语言数据源。其中包括检索增强生成技术等服务，这些技术允许预训练的生成式人工智能使用实时数据源获取更丰富、更相关的信息。适应多语言源的企业可以获取更多数据。

Briski表示，目前，NeMo Retriever for Multilingual只能用于文本检索和回答。她表示：“面向未来，我们正在研究多模态数据、图像、PDF和视频。”“我们现在只讨论文本。因为如果你能处理好文本，那么你就能在其他模式方面做得很好。”

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

来源：至顶网计算频道

2025

01/02

10:53

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

NVIDIA Blackwell 现已在云端全面可用

专访DeepMind CEO：我们距离实现AGI只需5-10年

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: