从我们的智能手机到监控摄像头,人工智能在将模糊、颗粒状的照片转化为高分辨率照片方面做得越来越好。
这些改进背后的秘密是一对被称为人工智能超分辨率和人工智能升级的技术,在这两种技术中,人工智能模型在巨大的数据集上进行训练,可以提升模糊图像的质量或增加其分辨率。
IEEE会员Yale Fox表示:“由于几项关键技术的进步,人工智能的升级在这些年里有了显著的提高。其中一个进步是迁移学习,它允许开发人员将预先训练好的模型用于新任务,大大提高了升级的速度和准确性。另一个关键发展是大型图像数据集的可用性,这对于训练深度学习算法识别和生成高质量图像至关重要。”
Fox表示,图形处理单元(GPU)的进步也改善了这项技术。
“GPU和深度学习的结合对于使人工智能更快、更高效地升级也至关重要。GPU可以同时处理大量数据,从而实现更快的训练和推理。”
许多智能手机使用人工智能升级来提高照片的质量和分辨率。但这项技术也在其他领域有应用,包括医疗、卫星和娱乐行业。
卫星成像:近年来,发射到轨道上的卫星数量激增。发射更小、更轻的卫星变得更容易、更便宜。但较小的卫星可能无法像较大的卫星那样携带昂贵的高分辨率相机。正如IEEE Xplore®的这篇文章(https://ieeexplore.ieee.org/document/9757881)所示,人工智能超分辨率使较小的卫星能够用较小的相机捕捉更好的图像。
天气预报:一些气象卫星监视着地球的大部分地区。他们拍摄的照片可能只显示了几平方英里大小的细节。IEEE Access的一篇文章(https://ieeexplore.ieee.org/document/9001044)描述了一种教低分辨率气象卫星如何拍摄更好照片的系统。它通过使用旧的天气和气候数据来做到这一点,这有助于提高这些大面积气象卫星的图片质量。
视频会议:通过笔记本电脑甚至手机传输的实时视频使用了大量的互联网带宽。几十年来,这些服务一直依靠音频和视频编解码器来压缩和解压缩数据流(https://spectrum.ieee.org/ai-video-codecs-waveone)。这些编解码器中的许多都有几十年的历史,是在互联网速度慢得多的时候开发的。
Fox说:“最先进的算法现在只需要一个人的一张高分辨率照片,然后相机跟踪他们的面部肌肉是如何运动的,以创建一种深度伪造的图像。这意味着带宽和文件大小减少了近800倍,这对视频通话等应用程序至关重要。这是一个巨大的增长,它确实稍微进行了改变。”
视频游戏和流媒体视频:与在线视频会议一样,图像放大在视频游戏中产生了巨大影响。IEEE Spectrum(https://spectrum.ieee.org/ai-graphics-neural-rendering)的一份报告显示,对于一些图形密集的视频游戏,每八个像素中就有七个是由人工智能生成的,因此速度快了530%。对于如何将超分辨率技术应用于点播视频流,也有重要的研究(https://ieeexplore.ieee.org/document/10019712)。
医学成像:超分辨率技术在医学领域有着广泛的应用。许多医学图像,如X射线和MRI扫描,由于各种因素,包括扫描时间长度和设备的限制,分辨率较低。例如,提高肿瘤周围微小血管的分辨率可以帮助癌症的识别和治疗(https://ieeexplore.ieee.org/document/8854062)。超分辨率还可以改善胎儿的成像,因为胎儿往往会四处移动,使成像变得困难。
那么,是什么让这些技术变得更好呢?
IEEE高级会员Fabrizzio Soares说,更好的训练数据。
Soares说:“值得一提的是,这些算法依赖于图像中先前的知识,因此提供的样本越多,模型就越准确。但建立最完整的图像数据库是一个难题。此外,提供的样本越多,模型就越大。因此,训练和维护模型需要付出更大的努力。”
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。