ZD至顶网服务器频道 01月18日 新闻消息: 英伟达公司在今年的消费电子产品展上公布的联合驾驶员"后座司机"AI可谓一鸣惊人。事实上,大多数与会者都被其在"车"中出色的唇语理解能力所震撼。

根据CES展会上公布的内容,这款联合驾驶员AI助手能够执行四项功能:面部识别、头部追踪、视线追踪与唇语阅读。自动驾驶AI属于GPU助力DRIVE PX 2平台的组成部分,其采用多款传感器以及由英伟达处理器支持的多种神经网络以实现功能。
英伟达公司的一位发言人在采访邮件中确认称,这款唇语阅读组件基于由牛津大学、谷歌DeepMind以及加拿大高级研究所的学者们共同撰写的一篇研究论文。
其实这篇论文在发布之初曾受到批评。虽然其中采用的神经网络LipNet拥有高达93.4%的识别准确率,但其测试场景仅限于一部分特定词汇而非连贯的句子。
在发表于arXiv上的第二篇论文中,我们看到LipNet的能力得到提升。其在通过数个小时的BBC新闻主持人唇部运动解析训练后,现在已经可以解读完整的句子。
英伟达公司的这款联合驾驶员助手显示,LipNet已经进一步获得了理解司机口头命令的能力,因此其能够处理各类常见指令--例如在噪杂的环境下准确选择播放某首曲目。
根据英伟达方面的说法,开发头部与视线追踪以及面部识别功能是为了向用户提供更出出色的安全性与驾驶体验。
"其中包含一套用于实现面部识别的AI,这样车辆就会了解到驾驶员是谁、设定个人偏好且不再需要使用钥匙启动车辆。另一套AI则用于视线追踪,这意味着车辆能够了解到您当前的注意目标,"英伟达公司在一篇博客中解释称。
英伟达公司向来以为游戏及高性能计算用例设计强大的GPU方案而闻名,但其近年来则一直把更多精力用于GPU加速型机器学习与AI的研发当中。“目前梅塞德斯-奔驰、奥迪、特斯拉以及丰田都已经成为该项新技术的客户,”一位英伟达公司发言人确认道。
好文章,需要你的鼓励
Linux基金会宣布成立代理AI基金会,为AI智能体基础设施开发提供厂商中立的监督。尽管业界承认AI智能体存在安全问题,高德纳咨询公司警告许多企业项目可能因缺乏商业价值而被取消,但基金会仍致力于为AI公司提供中立平台。Anthropic、Block和OpenAI分别贡献了三个项目,包括模型上下文协议、开源AI智能体框架和机器可读文档标准。
快手科技研究团队提出了熵比截断机制,用于解决强化学习训练中AI容易"走偏"的问题。该方法通过监控AI学习前后思维活跃度变化,在关键时刻进行精准干预,既保证训练稳定性又维持探索能力。在数学推理任务中,此方法显著提升了模型性能并改善了训练稳定性,为AI训练领域提供了新的解决思路。
微软计划在未来四年内向印度投资175亿美元,这是该公司在亚洲的最大投资。投资将用于建设新数据中心、AI基础设施和技能培训项目。此举正值全球科技巨头加速在印度布局,该国庞大的互联网和智能手机用户群体使其成为关键战场。投资还包括在海德拉巴建设新数据中心区域,并与印度政府合作将AI能力整合到公共数字平台中。
EditThinker是北京航空航天大学与美团等机构联合研发的图像编辑AI框架,让AI在编辑图片时能够像人类一样进行反复思考和优化。该系统通过"批评-优化-重试"的循环机制,将传统的一次性编辑转变为迭代改进过程,在四个权威测试平台上显著提升了现有编辑模型的表现,特别是在需要复杂推理的编辑任务中效果突出。