“人工智能带来指数级增长的算力需求,一方面多样化的智能场景需要多元化的算力,巨量化的模型、数据和应用规模需要巨量的算力,算力已经成为人工智能继续发展的重中之重;另一方面从芯片到算力的转化依然存在巨大鸿沟,多元算力价值并未得到充分释放。如何快速完成多元芯片到计算系统的创新,已经成为推动人工智能产业发展的关键环节。”在10月26日举行的2021人工智能计算大会(AICC2021)上,中国工程院院士、浪潮首席科学家王恩东阐释了计算系统创新在计算到智算转变的产业新格局下的重大意义。
随着人工智能在算法领域的不断突破,不同数值精度带来了跨度更大的计算类型,对计算芯片指令集、架构的要求更加细分。图灵奖获得者 John Hennessy和 David Patterson共同发表的《计算机架构的新黄金时代》中提出:当摩尔定律不再适用,一种更以硬件为中心的针对特定问题领域定制设计计算机体系架构的方法DSAs(Domain-Specific Architectures)会成为主导,这种设计的核心在于针对特定问题或特定领域来定义计算架构。基于DSAs思想设计的AI芯片,在特定AI工作负载上表现出远超通用芯片的处理能力,大大推动了AI芯片的多元化发展。
王恩东认为,芯片多元化为产业AI化的加速提供了重要的产业基础和更加丰富的选择。但是,芯片从造出来到大规模用起来,还存在巨大的产业鸿沟,“因此,如何将百花齐放的AI芯片转变成一个通用性强、绿色高效、安全可靠的计算系统,变得至关重要。”
然而,由于AI芯片在单一计算系统中往往高密度集成,带来系统功耗、总线速率、电流密度的不断提升,AI计算系统的设计面临巨大挑战。例如一台浪潮AI服务器,需要整合超过10000个零部件,包含50多类专用芯片、30多个技术方向以及100多种传输协议,涉及到材料、热力学、电池技术、流体力学、化学等一系列学科;需要经历30多个流程、150多种加工和制造的工艺、280多个关键过程的控制点,如何确保整个系统的可靠性是一个非常精细且复杂的工程。
“从火箭发动机到运载火箭,要在循环、控制、结构等很多领域做大量的工作。芯片到计算系统同样如此,需要完成体系结构、信号完整性、散热、可靠性等大量系统性设计工作。”王恩东院士用一个生动形象的比喻,描述了计算系统创新的难度。
值得关注的是,计算系统创新的根本目的,就是要让算力、算法和数据去服务数字经济,去支撑科研创新,去推动智慧转型,这就需要加大以智算中心为代表的新型人工智能基础设施建设,以此推动AI产业化、产业AI化和政府治理的智能化。
对此,王恩东院士强调说:“我们一方面要重视智算系统的创新,加大人工智能新型基础设施建设,把从技术到应用的链条设计好,从体系结构、芯片设计、系统设计、系统软件、开发环境等各个领域形成既分工明确又协同创新的局面。同时,也要加快推动开放标准建设,通过统一的、规范的标准,将多元化算力转变为可调度的资源,让算力好用、易用。”
好文章,需要你的鼓励
随着大语言模型在人工智能时代展现强大力量,可穿戴设备成为收集人体数据的重要载体。通过实时监测血压、心率、血糖等生命体征,结合AI边缘计算能力,医疗正向个性化转型。基因治疗、数字孪生技术让每个人都能拥有专属的医疗数字化身,实现从"报销型医疗"向"创新循证医疗"的转变,为疾病预防和健康管理带来革命性突破。
哥伦比亚大学研究团队开发了MathBode动态诊断工具,通过让数学题参数按正弦波变化来测试AI的动态推理能力。研究发现传统静态测试掩盖了AI的重要缺陷:几乎所有模型都表现出低通滤波特征和相位滞后现象,即在处理快速变化时会出现失真和延迟。该方法覆盖五个数学家族的测试,为AI模型选择和部署提供了新的评估维度。
在巴黎举办的欧洲开放基础设施峰会期间,专门用一整天时间讨论VMware迁移问题。博通收购VMware后许可证价格上涨,导致客户运营成本大幅增加。开源开发者展示了将VMware虚拟机迁移到开源替代方案的产品。Forrester分析师指出VMware客户对此感到信任破裂。OpenStack等开源解决方案虽然复杂度较高,但提供了健康的开源生态系统替代方案。
这项研究首次发现AI推理模型存在"雪球效应"问题——推理过程中的小错误会逐步放大,导致AI要么给出危险回答,要么过度拒绝正常请求。研究团队提出AdvChain方法,通过训练AI学习"错误-纠正"过程来获得自我纠错能力。实验显示该方法显著提升了AI的安全性和实用性,用1000个样本达到了传统方法15000个样本的效果,为AI安全训练开辟了新方向。