库存发生损失是零售商不可避免发生的事情。全球零售业面临着一个价值1000亿美元的难题——库存“损耗”,即由于盗窃、损坏和错放而造成的货物损失,这会在极大程度上削弱零售商的利润。
根据美国零售联合会(National Retail Federation)与零售防损委员会(Loss Prevention Research Council)合作开展的 《2022 年零售业安全调查》,估计65%的商品损耗是由于盗窃造成的。多家零售商表示,由于食品和其他必需品价格上涨,近期的盗窃事件增加了一倍以上。
成功的库存管理常常是基于速度和准确性。库存的自动化是一个现代化的技术,可以提高仓库的效率。NVIDIA专注于帮助零售商和解决方案提供商创建人工智能解决方案。
为了让开发者能够更轻松且快速地构建并推出能够防止盗窃现象的应用程序,NVIDIA宣布推出三个基于其Metropolis云原生微服务的零售AI工作流。这些工作流可用作防损应用程序的无代码或低代码构建模块。其基于最常被盗产品的图像以及软件进行了预训练,能够接入商店内现有的应用程序,追踪销售点机器以及整个商店内的对象和产品。
开发者可使用全新NVIDIA零售AI工作流,快速构建防损应用程序。该工作流基于云原生微服务而构建,包括针对数百种容易被盗的产品进行预训练的模型,从而提高需求预测的准确性。
通过 NVIDIA AI Enterprise软件套件提供的NVIDIA零售AI工作流包括:
1、零售防损AI工作流:该工作流中的AI模型经过预训练,可以识别数百种最常因盗窃而丢失的产品,包括肉类、酒类和洗衣粉,并能识别各种包装尺寸和形状。借助NVIDIA Omniverse的合成数据生成功能,零售商和独立软件供应商可针对数十万种店内产品,对模型进行定制化和进一步训练。
该工作流基于NVIDIA Research开发的最先进的少样本学习技术,再结合主动学习,可识别并捕获客户和销售人员在结账时扫描的任何新产品,最终提高模型准确性。
2、多摄像头追踪AI工作流:提供多目标、多摄像头(MTMC)功能,使应用开发者能够更轻松地创建系统,以通过商内的多个摄像头来进行对象追踪。该工作流通过摄像头来追踪对象和店员,每个对象拥有一个唯一ID。对象的追踪是基于视觉嵌入或外观,而非个人生物识别信息,以全面保障购物者的隐私。
3、零售商店分析工作流:使用计算机视觉,为商店的分析提供深入洞察,通过自定义仪表板来显示多项信息,例如商店客流量趋势、带购物篮的顾客数量、过道占用率等。
这些工作流基于NVIDIA Metropolis微服务而构建。NVIDIA Metropolis微服务是一种构建AI应用程序的低代码或无代码方式,为复杂AI工作流的开发提供了构建模块,并使开发出的工作流能够快速扩展到生产就绪型AI应用程序中。
开发者可以轻松地对这些AI工作流进行定制和扩展,包括集成开发者自己的模型。此微服务还能够更轻松地将新产品与旧系统(例如销售点系统)集成。
目前,Radius.ai基于Metropolis微服务构建的全新NVIDIA零售AI工作流能够对产品进行定制化,实现快速扩展,以更好地满足不断增长的客户需求,并持续推动零售领域的创新。
Infosys正在利用NVIDIA新工作流程开发最先进的防损系统, 包含用于零售SKU识别的预训练模型和微服务架构,并快速扩展以涵盖更多商店和产品线,同时实现超越从前的准确性。”
结语
库存管理是一个复杂的实践,但是借助数字化技术可以简化库存管理,提升效率。NVIDIA零售AI工作流让库存管理更加智能,减少零售企业的库存损耗。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。