北京—2017年10月10日——NVIDIA于今日发布了全球首台为完全自动驾驶出租车而设计的AI计算机。
代号为Pegasus的全新系统扩展了NVIDIA DRIVE PX AI计算平台,可以处理L5无人驾驶汽车。NVIDIA DRIVE PX Pegasus的每秒操作超过320万亿次——比其前身NVIDIA DRIVE PX 2的性能超出10倍以上。
NVIDIA DRIVE PX Pegasus将有助于使无人驾驶这一新型汽车——没有方向盘、踏板或汽车视镜且内部如同客厅或办公室的完全自动驾驶汽车——成为可能。此类汽车将按需抵达,安全将乘客送达目的地,从而让每个人(包括老年人和残疾人)享受移动出行。
驾驶员可以利用节省下来的数百万小时在日常通勤中工作、娱乐、用餐或睡觉。这种永不疲劳、不受损害且不会分心的汽车将挽救无数生命——同时提高道路安全性、减少拥堵、释放被停车场占用的宝贵土地。
在利用NVIDIA DRIVE PX平台进行开发的225个合作伙伴中,有超过25家正利用NVIDIA CUDA GPU开发完全自动驾驶出租车。现在,此类车辆的后备箱类似于小型数据中心,装在配备服务器级NVIDIA GPU的计算机机架上,以运行深度学习、计算机视觉和并行计算算法。此类车辆的尺寸、功率需求和成本导致它们并不适合大批量生产。
自动驾驶出租车的计算需求巨大——通过高清的360度环绕摄像机和激光雷达感知周围环境、对车辆进行厘米级高精度定位、追踪周围车辆和人员、规划前往目的地的安全舒适路线。所有这些处理必须通过多级冗余来实现,以确保最高安全级别。无人驾驶汽车的计算需求强度比目前最先进的汽车高50到100倍。
NVIDIA创始人兼CEO黄仁勋表示:“创造完全自动驾驶汽车是全社会最重要的事业之一,也是最难完成的挑战之一。Pegasus的突破性AI计算性能和效率对于该行业实现此愿景至关重要。”
“无人驾驶汽车将提供新的乘车和拼车服务。它将创造出全新车型,犹如置于车轮上的办公室、客厅或酒店房间。出行者只需根据目的地和沿线的出行活动来订购想要的车型。社会的未来将因而被重塑。”
几乎所有汽车制造商、运输服务公司和初创公司都在使用NVIDIA AI来开发L5车辆。
NVIDIA DRIVE PX Pegasus由四个高性能AI处理器提供动力。它搭载了NVIDIA两款最新的Xavier系统级芯片处理器——包括基于NVIDIA Volta架构的嵌入式GPU——具备两个新一代独立GPU以及为加快深度学习和计算机视觉算法而创造的硬件。该系统将通过一个车牌大小的计算机,为完全自动驾驶汽车提供强大的计算能力,大幅降低能耗和成本。
Pegasus依据业界最高安全级别的ASIL D认证要求而设计,配备汽车输入/输出,包括CAN(控制器局域网)、Flexray、用于摄像机、雷达、激光雷达和超声波的16个专用高速传感器输入以及多个10Gbit以太网络连接器。其组合内存带宽为每秒超过1TB。
NVIDIA DRIVE PX平台从实现L2+/L3功能的单个移动处理器配置扩展为针对完全L5的多个移动处理器和独立GPU组合。这些配置在单一的开放软件架构上运行。这使得汽车制造商和tier1供应商能够从开发阶段转入实现各种自动驾驶解决方案的生产阶段——从高速公路上的AutoCruise到点到点行程的AutoChauffeur,再到针对完全无人驾驶汽车的Pegasus。
NVIDIA DRIVE PX是NVIDIA AI计算解决方案系统中的一员。在NVIDIA DGX-1 AI超级计算机的数据中心训练深层神经网络的数据科学家们可以在车辆内无缝运行NVIDIA DRIVE PX。统一的架构让同样的NVIDIA DRIVE软件算法、数据库和工具既能在数据中心内运行也能在车内实现推理。
通过这种“云到车”的方法,无人驾驶汽车能够在整个生命周期内进行网络更新,从而添加新的功能特征。
Pegasus将于2018年下半年正式向NVIDIA汽车合作伙伴提供。NVIDIA DriveWorks软件和NVIDIA DRIVE PX 2配置现已经提供给从事自动驾驶汽车和算法的开发人员使用。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。