近日,首个以建立主权级大模型为目标的通用人工智能(AGI)企业“元神进化”在北京成立。中国智能计算产业联盟联合曙光智算、算力互联、并行科技、九方世纪、澎峰科技和华恒盛世等智算企业作为项目发起单位和“元神进化”公司签约。来自多所国内知名院校的专家团队提供技术支持。算力互联公司为主权级大模型项目的启动提供了算力支持,首个在训的主权级大模型采用自研的新一代多模态MoE架构。
两会热点:主权级大模型
人工智能(AI)大模型的发展日新月异。视频生成大模型Sora的热度尚未褪去,号称超越GPT-4的大模型Claude 3以及开源大模型Grok相继推出。在今年两会上,这一飞速发展、竞争激烈的领域成为不少代表委员的关注点,其中,全国政协委员、长期从事超级计算机研发与建设工作的中国科学院计算技术研究所研究员张云泉聚焦如何解决大模型算力瓶颈问题,首次提出要发展中国的主权级大模型。当前国内面临大模型训练用国产高端AI芯片供应不足等问题,应该整合优质科研和产业资源,尽快训练出我国的“主权级”大模型。发展主权级大模型需要两弹(智算+大模型)结合。
学术界响应,院士赞成,多位教授表示要提供技术支持
生物信息学专家,中国科学院院士陈润生对于“统一协调国内优质科研产业资源‘集中力量办大事’,以取得快速突破,避免低水平使用国外开源大模型的重复与‘内卷’,延误‘主权级大模型’研发”表示赞同。
超算领域专家,中国工程院院士郑纬民对于利用我国在超算研发建设中的丰富积累,设立能够支持“主权级”大模型训练的专用超算攻关专项,快速缓解国产“主权级大模型”训练的算力瓶颈等想法表示支持。
计算机科学家,中国科学院院士钱德沛对于发展主权级大模型的想法表示赞成,认为发展中国智算产业,研制出能够满足主权级大模型训练需要的十万卡甚至百万卡并行算力需求的AI芯片和系统尤为关键。
大模型领域专家,复旦大学自然语言理解实验室张奇教授表示,将和其他教授一起为‘主权级大模型’项目提供技术支持。“我们国家支撑大模型的智算技术和人才积累相当丰富,得到智能计算产业的支持,对于尽快缩小我国在‘主权级大模型’训练领域与美国的差距十分重要。目前中国院校全力投入大模型领域研究的顶尖人才众多,研发积极性非常高,但是受限于极高的算力门槛,很难单独开展通用大模型研发实践。通过‘主权级大模型’的共建形式和智能算力结合,有志于研发通用大模型的专家们完全能够参与进来为主权大模型事业的进步发挥出技术贡献。”张奇说。
智算产业支持,总签约合作算力超过20Eops
曙光智算、算力互联、并行科技、九方世纪、澎峰科技和华恒盛世等智算企业联合中国智能计算产业联盟作为项目发起单位和“元神进化”公司签约。
算力互联公司是中国科学院科技算力基础设施建设运营实践基础上由计算和通信产业链联合发起设立的高新技术企业,算力互联总经理唐德兵表示未来将依托算力互联ACLink+ACNet算力互联网体系,和“元神进化”共同开展1Eops级算力资源规模合作,构建有竞争力的通用人工智能算力基础设施。曙光智算未来将在国家级、地市级智算中心合作部署“元神进化”主权级大模型,形成通用AGI模型基础设施,帮助各智算中心对各类用户提供大模型技术服务和产品。
并行科技总经理陈健表示,作为国内领先的超算云服务和运营服务提供商和北交所上市公司,并行科技提供超算云、行业云、智算云、设计仿真云和计算资源建设及运营服务。未来将在“元神进化”主权级模型研发、赋能智能计算中心AGI服务商业化上开展合作。
九方世纪副总经理白洋表示,九方世纪在全国一体化算力网络内蒙古枢纽节点和林格尔数据中心集群建设九州智算中心,具备20E FLOPS FP16人工智能算力资源,将支持“元神进化”的主权级大模型项目研发和推广。
澎峰科技总经理张先轶表示,公司致力于打造国际领先的计算软件栈,从PerfMPL数学计算库,PerfXAPI异构计算框架,大模型推理框架PerfXLM,直至助力高级算力的PerfXCloud解决方案。正在积极参与到“元神进化”主权级大模型的软件基础建设当中去,持续赋能芯片、服务器、算力中心的AGI基础建设和应用生态发展。
华恒盛世总经理郑敏表示,作为国家高新技术企业、北京市专精特新企业华恒盛世专精于高性能计算领域的创新型科技。未来将围绕“元神进化”主权级大模型研发合作,通过智能算力调度、运维和优化等技术赋能通用AGI模型基础设施服务和模型商业化部署。
元神进化:打造主权级大模型研发主体
自美国OpenAI的ChatGPT横空出世以后,国内涌现出Moss等几百个大模型,智谱、百川智能、零一万物、minimax和月之暗面等5家头部大模型公司各自获得数十亿投资,知名投资人和机构纷纷点评大模型发展和商业化趋势,大模型市场竞争激烈。
“元神进化”要打造的主权级大模型和之前的大模型有什么区别,面对采访,“元神进化”创始人阐述了他思考的三个问题。
一、智算智能是一体的产业,从美国市值超过1万亿美元的几家公司看,我认为现在已经进入“智算智能”时代。主权级大模型首先要服务于智算产业,让智算用的好,更好用。
二、大模型技术发展日新月异,只有让在技术创新中最广泛的活跃群体加入进来,一起参与,才有可能创造最好的大模型。然而目前真正能参与通用大模型研发的教授团队少之又少,这种不平衡现象需要解决。“人工智能女王”李飞飞教授近日提出堪比登月计划的‘建立“美国国家级算力与数据集仓库”构想’——即使是算力供给充沛的美国也面临类似的问题,Meta可以为模型训练采购高达35万个GPU,而斯坦福大学的自然语言处理小组,总共却只拥有68个GPU。
三、大模型技术是遵循互联网模式发展成一个超级APP还是作为一个核心技术催生一个全新产业?我认为需要时间检验,目前国内单个大模型投入普遍只有数亿元级别,大模型产业投入上至少要追平芯片产业的投入才能看到完整的反馈。“元神进化”主权级大模型项目采用开放的生态合作方式,让全社会参与进来投入足够资源,顶层设计下边干边看,让投资人做判断题,企业家做选择题,科学家做证明题。”
该创始人浓浓的中科系话语以及背后智算行业的资深背景,揭示了他来自上一波硬科技科创潮龙头智算企业的身份。近年来,科研人员群体成功创业后又回到学界,新的沉淀积累之后,在新质生产力发展浪潮感召下,纷纷开启二次创业,深鉴科技创始人姚颂二次创业投身东方空间加入火箭事业就是其中非常成功的案例。
好文章,需要你的鼓励
微软宣布结束噪声量子机器时代,专注构建容错量子计算机与AI和高性能计算集成。公司推出Majorana 1芯片,采用分割电子形成天然抗噪声的量子比特技术。微软将量子处理器视为经典计算的加速器,通过AI简化量子编程,让用户用自然语言设计量子电路。Azure Quantum平台支持多种量子技术,应用涵盖化学、制药、金融等领域,并推进后量子密码学保护数据安全。
台湾大学联合MediaTek和Nvidia的研究团队开发了一种突破性的语音识别自我改进框架,无需大量人工标注数据即可显著提升AI语音识别准确率。该方法通过让AI生成伪标签训练语音合成系统,再用合成语音反向训练识别模型,形成自我强化循环。在台湾国语测试中,新模型Twister比原版Whisper错误率降低20-55%,数据效率提升10倍以上,为低资源语言AI应用提供了新路径。
在圣地亚哥举办的思科大会上,这家IT基础设施巨头展示了其在网络、网络安全和可观测性产品组合中深度集成智能AI的发展成果,重点关注客户体验提升。会议发布了AgenticOps平台作为AI基础设施的核心,包含AI Canvas管理控制台和深度网络模型,旨在简化网络和安全运营。此外还宣布了智能交换机产品线扩展、思科实时保护安全功能、统一架构体验等多项创新。思科正通过平台化策略构建完整的AI技术栈,为企业提供计算、网络和安全一体化解决方案。
微信AI团队发现当前先进的搜索系统存在"粒度困境":虽能处理复杂任务,但在简单的细节识别上却常出错。研究团队构建了专门测试平台,发现无论大小模型都在基础搜索任务上表现不佳。他们提出了新的训练方法,让小模型超越大模型,但同时发现了新挑战:过度关注细节会损害整体理解能力。