为快速增长的计算工作负载,人工智能(AI)也是英特尔认为将对世界产生变革性影响的超级技术力量之一。然而,数据显示,有超过一半的AI和数据科学项目无法真正部署到现实应用中,均以失败告终。海量数据、无法完全兼容的设备加之各异的数据环境,无疑为AI的应用和落地设置了重重关卡。
基于此,秉承推动AI无处不在的美好愿景,英特尔全面打造基于大数据AI开源项目BigDL,旨在助力从笔记本到云,无缝扩展大数据 AI。日前,英特尔院士、英特尔大数据技术全球首席技术官戴金权应邀出席 China Apache Hadoop Meetup 2022,并在会上深入解析英特尔如何从如下三个领域着手,创新BigDL,助力开源发展。
打造高可扩展性
对数据科学家和开发者而言,高可扩展性不仅意味着如何能高效、快速地构建出端到端的分布式数据和AI的流水线,也同样需要注重基础架构部署。与理论不同,实践中的科学家们更关注如何将AI技术应用部署到实际场景,其中包括建模、训练、推理和对模型的优化等全流程,这意味着需要考虑端到端的流水线。基于此,英特尔在底层就开始进行数据切分、模型复制、参数同步等工作,让数据科学家们能够有统一的体验,同时,英特尔亦将大规模分布式的工作透明化、抽象化,让数据科学家们能够高效开发AI流水线。而对于基础架构,英特尔亦通过类似BigDL的项目,为用户提供统一的大数据AI集群/基础架构。在同一个集群、流水线、工作程序当中,对这些大数据系统进行数据访问、分布式处理,在同一个流水线里以内存计算的形式进行大规模分布式数据分割,再由这些深度学习、机器学习的系统对其进一步分析。
提升每个节点的性能效率
每当提及AI性能时,大多数人的第一反应是GPU或AI芯片,然而软件优化能够带来的AI性能提升却极易被忽视。英特尔通过软件层面优化,如TensorFlow、PyTorch、MXNet等,可以带来几十倍、上百倍的性能提升,能够更加高效地集成这些软件。因此,可以认为构建一个免费的AI软件加速器,在笔记本、CPU集群上都能够带来性能上的极大提升。而且,现如今有大量的现代化CPU加速技术,如内存分配、指令集等,将这些技术整合在AI流水线中,也能够大大提升AI性能。值得注意的是,英特尔不仅通过软件大幅提升每个节点性能,亦能实现集成过程的透明性,使数据科学家的实操更加便捷。
构建安全可靠的数据处理环境
将AI应用从笔记本扩展到诸如云环境中时,安全也是数据科学家非常关注的另一大问题。对当下大部分应用场景而言,隐私保护机器学习与大数据分析是运行在云中非常重要的需求。这个安全保障不仅囊括了如同态加密、远程验证等软件方面的安全保障,也需要类似可信执行环境等硬件安全保障,如英特尔® SGX技术具备持续增强的安全能力,可在内存等硬件中构建一个安全“飞地”,帮助保护代码和数据,防止数据在处理期间遭受恶意软件攻击和权限提升型攻击。因此,基于英特尔® SGX技术打造的BigDL PPML,能够让用户即使没有处于极度信任的公有或私有云中也仍然可以进行非常安全的数据分析和AI应用。
得益于高扩展性、性能提升和安全可靠的特性,BigDL能够通过端到端大数据人工智能管道,降低AI的准入门槛,不仅能够让数据科学家、工程师等更便捷、简易地构建大规模分布式人工智能解决方案,从而加速AI应用和部署,亦有助于挖掘更多AI潜力,为各行业发展注入新动能。
好文章,需要你的鼓励
多伦多大学研究团队提出Squeeze3D压缩框架,巧妙利用3D生成模型的隐含压缩能力,通过训练映射网络桥接编码器与生成器的潜在空间,实现了极致的3D数据压缩。该技术对纹理网格、点云和辐射场分别达到2187倍、55倍和619倍的压缩比,同时保持高视觉质量,且无需针对特定对象训练网络,为3D内容传输和存储提供了革命性解决方案。
浙江大学与腾讯联合研究团队提出MoA异构适配器混合方法,通过整合不同类型的参数高效微调技术,解决了传统同质化专家混合方法中的表征坍塌和负载不均衡问题。该方法在数学和常识推理任务上显著优于现有方法,同时大幅降低训练参数和计算成本,为大模型高效微调提供了新的技术路径。
耶鲁、哥大等四校联合研发的RKEFino1模型,通过在Fino1基础上注入XBRL、CDM、MOF三大监管框架知识,显著提升了AI在数字监管报告任务中的表现。该模型在知识问答准确率提升超过一倍,数学推理能力从56.87%提升至70.69%,并在新颖的数值实体识别任务中展现良好潜力,为金融AI合规应用开辟新路径。
加州大学圣巴巴拉分校研究团队开发出能够自我进化的AI智能体,通过《卡坦岛拓荒者》桌游测试,这些AI能在游戏过程中自主修改策略和代码。实验显示,具备自我进化能力的AI显著超越静态版本,其中Claude 3.7模型性能提升达95%。研究验证了AI从被动工具向主动伙伴转变的可能性,为复杂决策场景中的AI应用开辟新路径。