2020年5月16日是一个普通的周六,也是英特尔OpenVINO工具套件发布两周年的特殊日子。在这一天,OpenVINO中文社区通过一场线上直播活动宣布正式成立,也成为OpenVINO两岁生日的一份特殊礼物。秉承“开放、开源、共创”的理念,OpenVINO中文社区由一群热爱技术、热心社区的开发者自发组织成立,致力于通过定期举办线上与线下的沙龙、动手实践及开发者交流大会等活动,促进人工智能开发者之间的交流学习。
在过去的两年时间里,英特尔OpenVINO工具套件因其加速深度学习并将视觉数据转换为业务洞察的强大优势,在中国,已携手众多生态合作伙伴通过人工智能与前沿技术及开发平台深度融合,在工业的预测维修、智慧城市的交通管理、医疗健康的辅助诊断、教育行业的智慧教室等多个场景打造出了多样化的视觉应用解决方案,充分释放出“智能边缘”的强大潜力。OpenVINO工具套件也因其卓越的性能、开放性和灵活性,在中国的开发者群体中收获了一众忠实粉丝。OpenVINO中文社区的成立是粉丝们为OpenVINO献上的一份特别的生日礼物,也为人工智能开发者们打造了共创共享的信息家园。
“美国有很多开源的开发者活跃平台。但在中国由于网络访问、语言等交流障碍,让开发者间的交流学习变得困难重重。OpenVINO中文社区的成立为广大中国开发者提供了一个讨论便捷,学习畅快,知识分享的沟通平台。未来我们希望借助社区的力量,吸引更多中国开发人才,投入到开源、开放、共创的生态建设中。”有过多年OpenCV社区建设经验的,OpenVINO中文社区创始成员贾志刚老师,对社区为中国开发者带来的积极影响充满期待。
据了解,OpenVINO中文社区将由理事会成员及普通会员两类成员构成。目前已建立微信群和几大社交平台的官方账号,不久的将来还将建立网站,以多种形式与广大开发者互动,实现信息的交流与沉淀。
同时英特尔公司也提供了一系列助力开发者学习成长的资源。例如,联合DFRobot共同启动的“英特尔OpenVINO领航者联盟集结行动DFRobot行业AI开发者大赛”;与复旦大学和中国大学MOOC平台联合推出的同时面向行业开发者和学生的基于OpenVINO的深度学习精品课程;以及联合CSDN发布的英特尔OpenVINO开发工具套件初级课程。多层次多角度的培训课程和丰富的竞赛活动,为社区在全国各地,各领域分享专业、高质量的精品内容注入强劲动力。
长期以来,英特尔一直都高度注重提升开发者的开发体验,并提供了加速开发的工具套件以积极赋能开发者。同时,开发者在影响技术和产品决策方面也发挥着关键的作用。英特尔在探究了开发者的整个开发周期后发现,如何有效地缩短开发周期,提升开发效率,通过通用工具实现与硬件的无缝延展,简化开发工作,对于那些希望能够实现快速开发、快速落地、快速推向市场的开发者而言尤为重要。
如今,英特尔已推出了最新的可支持第十代英特尔酷睿处理器(代号为Ice Lake)的OpenVINO工具套件2020.x版本,并以不低于一季度一次的高速迭代开发,进行软硬复合式改善,持续为开发者带来指数级性能提升体验,帮助开发者更好地发挥人工智能的潜力。如此高的迭代速度,也离不开开发者们积极的体验反馈。OpenVINO中文社区的成立,为英特尔提供了又一个实时倾听开发者意见反馈的平台,帮助快速优化产品未来规划,充分发挥生态效能。
英特尔公司物联网事业部副总裁兼物联网事业部中国区总经理陈伟博士表示:“国内市场在人工智能和计算机视觉方面的应用处于全球领先位置,国内的开发者也一直都是英特尔强大生态圈里的重要组成部分。OpenVINO中文社区的成立,让我们非常高兴地看到,OpenVINO工具套件正在受到越来越多的开发者喜爱与支持。英特尔也将继续不遗余力地打造更加精准、高效、开放的领先技术和解决方案,为开发者之旅注入更多创新活力,与开发者一起携手同行,共创智能边缘的未来。”
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。