为了使生成式人工智能的跨语言数据检索更加准确,NVIDIA通过面向开发人员的应用编程接口目录,推出了使用Nvidia NeMo Retriever的多语言功能。该软件可以理解多种语言和格式的数据,并将其转化为文本,帮助实现上下文感知结果。
NeMo Retriever允许开发人员为人工智能模型建立信息摄取和检索管道,通过转换文本、文档、表格和类似信息来提取结构化和非结构化数据,并避免重复的数据块。它将信息转换成人工智能可以理解的语言,并将其插入到使用嵌入技术的矢量数据库中。
嵌入是一种复杂的信息数学表示方法,代表了词、短语和其他类型数据之间的属性和关系。在搜索或思考两个词或句子时,它可以帮助捕捉两者意义的“接近程度”,就像“猫”和“狗”很接近,因为它们都是动物,并且都是家养宠物。然而,“烤面包机”和“狗”的区别比较大,不过两者都经常出现在房子里。
NVIDIA生成式人工智能软件副总裁Kari Briski在接受SiliconANGLE采访时表示,使用 Retriever以母语嵌入和检索数据还能提高准确性。这种情况的部分原因是英语在大多数人工智能数据训练集中占主导地位。任何人如果将某些德语的内容翻译成英语,然后再翻译回德语,都会发现“翻译遗失”效应,即每次都会遗失上下文或准确性。
Briski表示:“准确性是必要的,而世界上大多数数据、开放数据恰好都是英语,这就是为什么要推动主权人工智能的原因。”“加强其他语言,让数据和检索器使用他们的自然语言,将有助于提高准确性。”
Briski表示,Retriever刚发布时,由于使用翻译软件会失去准确性,因此客户要求提供多语言支持。企业业务并非只使用一种语言。他们可能会嵌入英文文档、德文测试、日文内容,或者调入用俄文撰写的研究报告。结果是,这些信息需要通过相同的模型进行搜索,但通过的工具越多,准确性就越低。
除了摄取之外,NeMo Retriever还能对结果进行“评估和重排”,以确保答案的准确性。当通过Retriever发送查询时,它会检查矢量数据库的响应,并对检索到的信息进行排序,以便根据与查询的相关性对答案进行排序,从而提高准确性。
NVIDIA与DataStax合作,采用NeMo Retriever对免费在线志愿者众包的维基百科的内容进行矢量嵌入。利用NVIDIA提供的技术和专用软件,该公司能够在三天内将1千万个数据条目的内容矢量化为人工智能可以使用的格式,这项工作原本通常需要30 天。
其他一些NVIDIA的合作伙伴——包括Cohesity、Cloudera、SAP SE和VAST Data等已经在整合对这些新的微服务的支持,以支持大型多语言数据源。其中包括检索增强生成技术等服务,这些技术允许预训练的生成式人工智能使用实时数据源获取更丰富、更相关的信息。适应多语言源的企业可以获取更多数据。
Briski表示,目前,NeMo Retriever for Multilingual只能用于文本检索和回答。她表示:“面向未来,我们正在研究多模态数据、图像、PDF和视频。”“我们现在只讨论文本。因为如果你能处理好文本,那么你就能在其他模式方面做得很好。”
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。