2024年5月7日 – MediaTek今日在天玑开发者大会(MDDC 2024)上,与Counterpoint携手阿里云通义千问、百川大模型、虎牙、酷狗、零一万物、OPPO、Soul、腾讯AI Lab、腾讯混元、vivo等生态伙伴*,联合发布《生成式AI手机产业白皮书》,共同定义了“生成式AI手机”的概念和典型特征。
MediaTek资深副总经理、无线通信事业部总经理徐敬全表示:“生成式AI手机将是智能手机进化的下一形态,移动生态正迎来远超以往的创新机遇。MediaTek将持续突破天玑移动平台的算力和AI能力,为生成式AI手机提供可靠、完备的解决方案,携手全球先进的AI大模型、开发者、终端厂商等行业生态伙伴,加速推进生成式AI的端侧部署和应用落地,为全球用户开启高度智能化、个性化的生成式AI手机新时代。”
与生成式AI技术的融合无疑是当下与未来智能手机产业发展的主旋律,它将开启手机智能化演进的新篇章,并为移动互联网生态的持续繁荣注入新动能。在此背景下,《生成式AI手机产业白皮书》提出“生成式AI手机”的概念:生成式AI手机是利用大规模、预训练的生成式AI模型,实现多模态内容生成、情境感知,并具备不断增强的类人能力。生成式AI手机开启了智能手机发展的新周期,长远看,智能手机将会发展为移动智能体。
该白皮书认为,生成式AI手机需要具备如下必要特征:
? 支持大模型的本地部署,或是通过云端协同的方式执行复杂的生成式AI任务。生成式AI手机本身具备强大的AI算力,无须完全依赖云端服务器。
? 具备多模态能力,即可以处理文本、图像、语音等多种形式的内容输入,以生成各种形式的输出,典型用例如翻译、图像生成和视频生成等。
? 确保流畅、无缝的用户体验,设备能够以自然而直观的交互方式,快速响应用户的请求。
? 拥有实现上述特征的硬件规格,包括但不限于基于领先工艺和先进架构设计的移动计算平台,拥有集成或者独立的神经网络运算单元(如APU/NPU/TPU),大容量和高带宽的内存,以及稳定和高速的连接,硬件级和系统级的安全防御。
《生成式AI手机产业白皮书》详细地阐述了生成式AI与智能手机深度融合的趋势,深入探讨了生成式AI手机生态中芯片厂商、手机厂商、大模型厂商、开发者的AI战略,以及生成式AI手机的软硬件科技全景,并给出了Counterpoint对生成式AI手机发展的预测。受益于强大的移动计算平台,丰富的不同体量的模型矩阵,完整的配套工具链,以及产业各方积极的应用探索,生成式AI手机将在未来几年保持高速成长,生成式AI手机的存量规模将在2027年突破10亿大关,帮助实现生成式AI技术的普惠。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。