至顶网服务器频道 09月20日 新闻消息(文/李祥敬):日前,国务院印发了《新一代人工智能发展规划》,提出面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施。
人工智能不光是在政策支持方面迎来了快速发展的“东风”,在产业层面,人工智能也进入到一个全新的发展阶段。
近日,首届人工智能计算大会(AI Computing Conference,简称AICC)在京举行。本次大会由中国工程院信息与电子工程学部主办、浪潮集团承办,搭建了一个以人工智能计算为主题的国际性产学研交流合作平台。
AICC有来自中国工程院、阿里、百度、微软、腾讯、英特尔、英伟达、浪潮、讯飞、Uber、旷视、今日头条、平安科技、国家超算中心、清华大学、香港浸会大学、美国印第安纳大学等海内外数十位知名专家围绕AI计算创新主题进行研讨报告,分享了AI在互联网、云计算、超算、安防、医疗、能源、电商、智慧城市等众多行业的创新实例。
其中,阿里云高性能计算/异构计算高级技术专家游亮接受了至顶网的采访,就目前的人工智能热点以及阿里云在AI方面的布局进行了深入交流。游亮表示,异构计算对于人工智能计算是一个非常好的加速引擎。
为什么这样说呢?因为AI计算对计算力的要求是非常高的,随着AI神经网络的复杂度变高,它对计算力的要求也会越来越高,传统CPU已经无法满足计算需求。而异构计算正好满足人工智能的要求,因为异构计算有比传统CPU更高的并行浮点运算效率,更高的峰值处理能力,更高的吞吐量,更低的延迟。
“阿里云在异构计算方面进行了大量投入,满足人工智能对于计算力的需求。企业可以在云端非常便捷的获得AI所需的异构计算资源,比如GPU或者FPGA计算集群,一键搭建高可用的分布式业务系统,这样企业可以把更多的精力放在自己的核心业务逻辑构建上面,为企业大幅度提升市场竞争力。另外阿里云异构计算资源的全球部署,更可以为中国企业的国际化保驾护航。”游亮说。
除了把GPU和FPGA的计算力进行资源池化,阿里云还推出了IaaS+服务,包括统一的异构资源调度产品E-HPC,优化应用对于异构资源的合理利用,大大提高异构资源利用率。
“为了帮助企业更好地使用AI,阿里云还提供了容器服务,帮助企业可以一键部署常见的深度学习框架,比如一键部署分布式 的TensorFlow训练框架,该服务还可以实现服务和GPU的自动运维监控。”游亮说。
游亮表示,原来用单机单卡需要一个月或者更长时间的训练任务,一键部署分布式深度学习框架,使用多机多卡可以在一天或者几个小时之内就可以完成训练任务,这样对于这种人工智能企业的创新、竞争力的提高是非常有益的。
“在FPGA方面,阿里云会提供免费的云端FPGA开发环境,建立FPGA 镜像市场,吸引更多的开发者来开发FPGA的IP,丰富FPGA的整个生态环境。”游亮说。
现在阿里云服务各种不同类型的客户,针对客户特点,游亮表示,不同类型的企业对服务的需求也是不一样的,但是共同点是对服务的稳定性要求特别高,业务是绝对不能中断的,包括异构计算、弹性计算、存储一定是要满足24小时不间断的服务,这需要一个非常稳定的异构计算的基础架构和高可用的业务架构。
在安全性方面,阿里云提供了一整套的纵深防御安全体系,从网络安全到数据安全全面保障。
对于高性能计算与人工智能之间的关系,游亮表示,高性能计算在帮助人类探索整个世界本质的过程中扮演了重要的角色,也是推动人类社会进步的一个很重要的因素。
“在我看来,人工智能是高性能计算里面的一个分支,其也是探索事物规律和本质的一个过程,现在国家也把人工智能纳入到国家发展战略规划里面。人工智能最近为什么这么火?因为它在人们的生产和生活方式中起到了非常重要的作用,推动了社会的进步和发展。我觉得阿里云有能力承担起这个责任,通过提供最为全面的异构计算产品,推动和加速人工智能产业的发展,从而推动国家产业升级和社会发展”游亮最后说。
好文章,需要你的鼓励
Lumen Technologies对美国网络的数据中心和云连接进行重大升级,在16个高连接城市的70多个第三方数据中心提供高达400Gbps以太网和IP服务。该光纤网络支持客户按需开通服务,几分钟内完成带宽配置,最高可扩展至400Gbps且按使用量付费。升级后的网络能够轻松连接数据中心和云接入点,扩展企业应用,并应对AI和数据密集型需求波动。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
RtBrick研究警告,运营商面临AI和流媒体服务带宽需求"压倒性"风险。调查显示87%运营商预期客户将要求更高宽带速度,但81%承认现有架构无法应对下一波AI和流媒体流量。84%反映客户期望已超越网络能力。尽管91%愿意投资分解式网络,95%计划五年内部署,但仅2%正在实施。主要障碍包括领导层缺乏决策支持、运营转型复杂性和专业技能短缺。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。