英伟达今天宣布推出微服务,允许人工智能工程师构建可以存储和检索多种语言数据的生成式人工智能应用程序,使其更容易跨越国界障碍。
为了使生成式人工智能的跨语言数据检索更加准确,英伟达通过面向开发人员的应用编程接口目录,推出了使用Nvidia NeMo Retriever的多语言功能。该软件可以理解多种语言和格式的数据,并将其转化为文本,帮助实现上下文感知结果。
NeMo Retriever允许开发人员为人工智能模型建立信息摄取和检索管道,通过转换文本、文档、表格和类似信息来提取结构化和非结构化数据,并避免重复的数据块。它将信息转换成人工智能可以理解的语言,并将其插入到使用嵌入技术的矢量数据库中。
嵌入是一种复杂的信息数学表示方法,代表了词、短语和其他类型数据之间的属性和关系。在搜索或思考两个词或句子时,它可以帮助捕捉两者意义的“接近程度”,就像“猫”和“狗”很接近,因为它们都是动物,并且都是家养宠物。然而,“烤面包机”和“狗”的区别比较大,不过两者都经常出现在房子里。
英伟达生成式人工智能软件副总裁Kari Briski在接受SiliconANGLE采访时表示,使用 Retriever以母语嵌入和检索数据还能提高准确性。这种情况的部分原因是英语在大多数人工智能数据训练集中占主导地位。任何人如果将某些德语的内容翻译成英语,然后再翻译回德语,都会发现“翻译遗失”效应,即每次都会遗失上下文或准确性。
Briski表示:“准确性是必要的,而世界上大多数数据、开放数据恰好都是英语,这就是为什么要推动主权人工智能的原因。”“加强其他语言,让数据和检索器使用他们的自然语言,将有助于提高准确性。”
Briski表示,Retriever刚发布时,由于使用翻译软件会失去准确性,因此客户要求提供多语言支持。企业业务并非只使用一种语言。他们可能会嵌入英文文档、德文测试、日文内容,或者调入用俄文撰写的研究报告。结果是,这些信息需要通过相同的模型进行搜索,但通过的工具越多,准确性就越低。
除了摄取之外,NeMo Retriever还能对结果进行“评估和重排”,以确保答案的准确性。当通过Retriever发送查询时,它会检查矢量数据库的响应,并对检索到的信息进行排序,以便根据与查询的相关性对答案进行排序,从而提高准确性。
英伟达与DataStax合作,采用NeMo Retriever对免费在线志愿者众包的维基百科的内容进行矢量嵌入。利用英伟达提供的技术和专用软件,该公司能够在三天内将1千万个数据条目的内容矢量化为人工智能可以使用的格式,这项工作原本通常需要30 天。
其他一些英伟达的合作伙伴——包括Cohesity、Cloudera、SAP SE和VAST Data等已经在整合对这些新的微服务的支持,以支持大型多语言数据源。其中包括检索增强生成技术等服务,这些技术允许预训练的生成式人工智能使用实时数据源获取更丰富、更相关的信息。适应多语言源的企业可以获取更多数据。
Briski表示,目前,NeMo Retriever for Multilingual只能用于文本检索和回答。她表示:“面向未来,我们正在研究多模态数据、图像、PDF和视频。”“我们现在只讨论文本。因为如果你能处理好文本,那么你就能在其他模式方面做得很好。”
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。