至顶网服务器频道 12月04日 新闻消息(文/李祥敬):当前人工智能备受追捧,相关人才成为“香饽饽”。但是现实上,人们学习人工智能的途径并不是很顺畅。于是,NVIDIA推出了“开发者项目”及DLI(深度学习学院)。NVIDIA开发者计划全球副总裁Greg Estes在GTC China 2018上告诉记者,这两块业务对于NVIDIA在人工智能领域的布局至关重要。
对于NVIDIA的开发者项目,Greg表示,用户购于GPU会承载不同类型的工作负载,如何针对工作负载优化应用成为开发者首要解决的。NVIDIA在开发者生态建设方面是纵向性的,也就是聚焦不同的细分行业,帮助开发者完成应用的交付。“在NVIDIA眼中,开发者是最重要的,所以我们才会花很大的力气关注开发者的社区。因为NVIDIA提供了最佳的人工智能开发平台,所以开发者非常愿意跟我们合作。”
为了帮助不同领域的开发者更好地完成项目交付,NVIDIA提供了软件开发套件、文档和代码适应等不同层面的内容。据Greg介绍,目前,NVIDIA开发者社区的总人数已经超过了100万。“NVIDIA在2006年启动了CUDA,由于人工智能的流行,2014年CUDA开发者的人数激增。”
针对人工智能的学习培训,NVIDIA深度学习学院(DLI)应运而生。其针对AI和加速计算提供实践操作培训,为开发人员、数据科学家和研究人员度身打造课程。参与者可以获得培训证书,证明在相关领域的技能,为职业发展提供证明。时至今日,已经培训120000名来自世界自地的开发者。
Greg表示,在过去几年,NVIDIA针对CUDA进行了一些培训工作,发现效果挺好,于是这种想法扩展到人工智能领域。“学习到人工智能理论可能会很容易,但是怎样把人工智能转化为产品却很难。DLI就是为了解决这样的问题,通过动手实操帮助人们掌握人工智能的本领。”
同时,Greg认为,如果你获得DLI的认证,在职业生涯方面就会有很大优势。“DLI认证是可以让大家非常自豪的事情,让你找到好的工作,这是基于你的知识以及你被认知的事实。现在越来越多的人在自己的简历中和社交媒体上面,提到了他们接受过DLI认证。在NVIDIA内部,很多工程师也在学习DLI课程,并通过DLI认证。”
目前,DLI所有的课程都放到了云端,这和其它的公司提供的培训非常不一样。而且课程会根据目前的技术发展不断更新,DLI需要学习者亲手操作体验,而不只是坐在电脑面前看看视频,或者是听别人讲座。Greg透露,截至目前,中国已有超过9000名开发者参加了自主培训和讲师指导式培训课程,同比增长100%。
此外,DLI与领先的教育组织合作,将深度学习培训范围扩展到全球的开发者和数据科学家。NVIDIA还新增3家认证合作伙伴,可为重要客户提供讲师指导式培训班。通过合作伙伴,DLI培训出3300多名开发者;DLI在企业内部、大型会议和大学等场所召开了100多场讲师指导式培训班。
同时,通过“校园大使计划”,DLI深度学习学院培训出500多名大学生和教职人员。据悉,全球著名学府都可以参与DLI校园大使计划。教育工作者还可以下载NVIDIA教学套件, 以获取教学课件、实践操作课程和GPU云资源等。
好文章,需要你的鼓励
这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设计了结合检索效率与结果质量的精细奖励机制。实验表明,该方法在各类视觉理解任务上大幅超越现有技术,Qwen2.5-VL-7B和3B模型分别提升了20%和30%的性能,为处理图表、布局等复杂视觉信息提供了更强大的工具。
香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得不当奖励。研究提出混合验证器设计,结合两者优势,在数学推理任务上将性能提升3个百分点,为开发更可靠的AI训练系统提供重要启示。
这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该方法在处理复杂多物体场景时性能提升高达50%,为医学研究、建筑设计和刑事侦查等领域开创了新的应用可能。
这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。