2023年8月3日,以“融新汇智 竞促发展”为主题的第四届中国人工智能大赛成果发布会在厦门国际会议中心酒店圆满顺利举办。各主办单位领导先后发表致辞,中国工程院张平院士进行了精彩演讲,华为、美亚柏科、美图等企业代表进行了主题演讲。会议还公布了第四届人工智能大赛获奖名单,并为获奖选手颁奖。
本届大赛由国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局和厦门市人民政府联合主办,旨在深入贯彻落实党的二十大精神,推动人工智能与传统产业融合发展,加快构建人工智能新增长引擎。大赛规格高、专业性强、主题鲜明,彰显了国家对人工智能产业的重视和推动力度。
大赛紧跟党中央战略部署大局,以产业发展实践为引领,紧扣人工智能前沿领域,针对技术痛点难点,并借鉴国内外类似赛事经验,精心设计竞赛方案,最终确定了多媒体信息识别、算法治理两大竞赛方向,并创新性地围绕复杂场景图片文字识别、多模态信息情感分析、图文一致性检测、虚假信息检测、特定样本变体识别、深度合成音频鉴别、深度合成视频检测、视频生成方法识别8个细分领域设置了赛题,确保了竞赛贴近实战、符合产业关切。
大赛在各主办单位的大力支持和指导下,累计吸引185个队伍报名,参赛团队来自国内互联网企业、人工智能企业,以及航天、金融、广电、医疗等领域的相关单位,社会反响热烈。
大赛取得了丰硕的成果。经过激烈的竞赛角逐,最终涌现出了一批优秀的参赛队伍,共有12个团队获得A级证书,17个团队获得B级证书(附后)。
从本届大赛的获奖名单中看出,多支来自厦门的团队取得了优异的成绩,这离不开厦门市优越的人工智能产业发展环境。作为此次大赛的东道主,近年来,厦门市积极布局人工智能产业,先后出台了人工智能、数字经济、软件和新兴数字产业等政策措施;持续强化人工智能学科建设和人才培养;打造了鲲鹏超算中心、数据安全开放平台、智能网联检验检测公共服务平台等创新平台;在医疗、政务服务、自动驾驶、社会治理等领域推出了一批典型应用场景;颁布实施了《厦门经济特区数据条例》,进一步为人工智能健康发展保驾护航。
厦门人工智能发展取得显著成效,获批中国软件特色名城,入选全国“双智”试点城市、“千兆”城市;人工智能核心产业规模持续壮大,产业创新生态不断完善,在自然语言处理、语音识别、生物识别以及计算机视觉等领域涌现出云知芯、瑞为、硕橙科技等一批新锐企业和行业领军,美图、美亚柏科、渊亭信息等在内容生成、行业大模型等新赛道进一步取得标志性成果。
近日,厦门又成功获得福建省人工智能产业园(厦门园区)授牌,成为三个省级人工智能产业园之一。厦门市有关领导表示,厦门市将以此次大赛为新的起点,在前期产业发展的基础上,紧密依托福建省人工智能产业园(厦门园区),对标国家人工智能创新应用先导区、国家新一代人工智能创新发展试验区,充分集聚资源优势,进一步推动形成具有厦门特色的区域产业发展路径,构建资源富集、创新活跃、应用丰富、服务优质、安全规范的人工智能产业生态。同期,厦门市正在举办城市AI创新发展、AIGC产业发展及智能安全等会议活动。
附:
第四届中国人工智能大赛获奖名单
A级证书获奖团队(排名不分先后)
复杂场景图片文字识别
厦门安胜网络科技有限公司
淘宝(中国)软件有限公司
图文一致性检测
腾讯云计算(北京)有限责任公司
维沃移动通信(深圳)有限公司
多模态信息情感分析
之江实验室
腾讯云计算(北京)有限责任公司
虚假信息检测
厦门大学VCG实验室、厦门元深智能科技有限公司(联合团队)
特定样本变体识别
淘宝(中国)软件有限公司
杭州迪普科技股份有限公司
深度合成音频鉴别
中国工商银行股份有限公司
深度合成视频检测
北京远鉴信息技术有限公司
视频生成方法识别
厦门大学VCG实验室、国家政法智能化技术创新中心(联合团队)
B级证书获奖团队(排名不分先后)
复杂场景图片文字识别
成都数之联科技股份有限公司
中国医学科学院生物医学工程研究所
招银网络科技(深圳)有限公司
图文一致性检测
中移动信息技术有限公司
数美科技有限公司
中国移动(浙江)创新研究院有限公司
多模态信息情感分析
中国移动通信集团江西有限公司
上海亦我信息技术有限公司
深圳市网联安瑞网络科技有限公司
虚假信息检测
北京华力兴科技发展有限责任公司
特定样本变体识别
北京市大数据中心
天津中科闻歌科技有限公司
深度合成音频鉴别
北京远鉴信息技术有限公司
厦门快商通科技股份有限公司
深度合成视频检测
厦门安胜网络科技有限公司
厦门大学VCG实验室、国家政法智能化技术创新中心(联合团队)
视频生成方法识别
厦门安胜网络科技有限公司
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。