世界上90%的数据是在过去几年里产生的——事实上,过去30年中,全球的数据量大约每两年增加10倍,这远远超过了计算机领域的摩尔定律。“数据的海量增长向人类提出一项要求,那就是我们必须迅速掌握像人工智能这样的技术手段来应对大数据提出的挑战。”曙光公司首席运营官叶健如是说。
“大数据平台助力提高分析与推理速度,高性能计算则帮助提高了AI的学习速度。”叶健表示,新信息环境与人工智能技术相结合将催生“实时系统智能”,例如智慧城市、智能医疗、智能交通等。
大数据、高性能计算、人工智能相得益彰
“由于各类传感器和数据采集技术的发展,人们开始拥有以往难以想象的海量数据,同时也开始在各个领域拥有深度的、细致的数据。” 叶健说到,这些正是训练该领域“智能”的前提。大数据与AI发展都需要“快”,而“快”恰是曙光的特点和基因。
叶健说,海量数据、高速并行运算、更优化的算法共同促成了人工智能的突破性发展;而互联网环境中的许多环节都是在一边学习一边应用的过程中实现的。大数据、高性能计算、人工智能三者像是踏上了一个共同前进的节拍,相得益彰。
“与以往传统的算法相比,立足于神经网络的人工智能技术利用输入的数据自行模拟和构建相应的数学模型。”叶健解释说,这一算法特点决定了它更为灵活且可以根据不同的训练数据而拥有自优化的能力。
如今,人工智能在大数据及高性能计算的驱动下,已经在各个领域实现了价值。商品推荐、社交图谱、智能客服乃至无人驾驶等都已经依靠深度学习和其他人工智能方法,实现了巨大的商业价值。
助力社会走向实时系统智能
纵观人工智能60多年的发展史和历史上的几次起落,人工智能这次的变革“大不同”。叶健分析说:“首先,人工智能的基础发生了改变,已经从以往的样本分析变成了如今的大数据、多媒体数据、传感器网的流数据以及AR和VR的复杂系统。其次,从社会需求来看,人工智能不再满足于研究个体的智能,而是希望研究整个系统的智能,甚至是实时系统智能。”
“随着虚拟世界与物理世界的界线不断模糊甚至趋近于相互融合,人工智能正在走向2.0时代。” 叶健表示,实时系统智能已在诸多应用场景中大显身手,如通过预研人脸采集比对预警、实时视频图像预警、视频录像情报分析系统预研防控及情报业务,启动情报加指挥双引擎,达到反恐的实时布控;通过利用入侵检测系统提供的功能并结合异常分析,准确报告攻击行为,实现网络犯罪模式的实时识别;移动警务视频云平台通过支持数千点位移动警务终端的视频直播和点播等功能,做到视频监管立体全覆盖,以利于快速研判,为重大活动道路交通疏导、交通事故现场处理、交通应急事件处置等提供有效决策依据和业务支持。
叶健认为,未来,新一代人工智能应该沿大数据智能、群体智能、跨媒体智能、人机混合增强智能和自主智能系统方向发展,并在商务、医疗、制造等各个领域产生深刻影响。
“曙光2015年提出‘数据中国’战略,目前已经积累了大量的云计算和大数据技术和应用经验,接下来,曙光将借助人工智能技术优势,在‘数据中国’的基础上进一步实施‘数据中国智能计划’,致力于将人工智能和中国的信息化合为一体,使信息化的线路从数字化发展到网络化,最后进展到智能化。”叶健说,在人工智能变革大潮的机遇中,曙光将依靠大量数据的滚动,将数据的累积、迭代和自动标注形成一个良性循环。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。