为快速增长的计算工作负载,人工智能(AI)也是英特尔认为将对世界产生变革性影响的超级技术力量之一。然而,数据显示,有超过一半的AI和数据科学项目无法真正部署到现实应用中,均以失败告终。海量数据、无法完全兼容的设备加之各异的数据环境,无疑为AI的应用和落地设置了重重关卡。

基于此,秉承推动AI无处不在的美好愿景,英特尔全面打造基于大数据AI开源项目BigDL,旨在助力从笔记本到云,无缝扩展大数据 AI。日前,英特尔院士、英特尔大数据技术全球首席技术官戴金权应邀出席 China Apache Hadoop Meetup 2022,并在会上深入解析英特尔如何从如下三个领域着手,创新BigDL,助力开源发展。
打造高可扩展性
对数据科学家和开发者而言,高可扩展性不仅意味着如何能高效、快速地构建出端到端的分布式数据和AI的流水线,也同样需要注重基础架构部署。与理论不同,实践中的科学家们更关注如何将AI技术应用部署到实际场景,其中包括建模、训练、推理和对模型的优化等全流程,这意味着需要考虑端到端的流水线。基于此,英特尔在底层就开始进行数据切分、模型复制、参数同步等工作,让数据科学家们能够有统一的体验,同时,英特尔亦将大规模分布式的工作透明化、抽象化,让数据科学家们能够高效开发AI流水线。而对于基础架构,英特尔亦通过类似BigDL的项目,为用户提供统一的大数据AI集群/基础架构。在同一个集群、流水线、工作程序当中,对这些大数据系统进行数据访问、分布式处理,在同一个流水线里以内存计算的形式进行大规模分布式数据分割,再由这些深度学习、机器学习的系统对其进一步分析。
提升每个节点的性能效率
每当提及AI性能时,大多数人的第一反应是GPU或AI芯片,然而软件优化能够带来的AI性能提升却极易被忽视。英特尔通过软件层面优化,如TensorFlow、PyTorch、MXNet等,可以带来几十倍、上百倍的性能提升,能够更加高效地集成这些软件。因此,可以认为构建一个免费的AI软件加速器,在笔记本、CPU集群上都能够带来性能上的极大提升。而且,现如今有大量的现代化CPU加速技术,如内存分配、指令集等,将这些技术整合在AI流水线中,也能够大大提升AI性能。值得注意的是,英特尔不仅通过软件大幅提升每个节点性能,亦能实现集成过程的透明性,使数据科学家的实操更加便捷。
构建安全可靠的数据处理环境
将AI应用从笔记本扩展到诸如云环境中时,安全也是数据科学家非常关注的另一大问题。对当下大部分应用场景而言,隐私保护机器学习与大数据分析是运行在云中非常重要的需求。这个安全保障不仅囊括了如同态加密、远程验证等软件方面的安全保障,也需要类似可信执行环境等硬件安全保障,如英特尔® SGX技术具备持续增强的安全能力,可在内存等硬件中构建一个安全“飞地”,帮助保护代码和数据,防止数据在处理期间遭受恶意软件攻击和权限提升型攻击。因此,基于英特尔® SGX技术打造的BigDL PPML,能够让用户即使没有处于极度信任的公有或私有云中也仍然可以进行非常安全的数据分析和AI应用。
得益于高扩展性、性能提升和安全可靠的特性,BigDL能够通过端到端大数据人工智能管道,降低AI的准入门槛,不仅能够让数据科学家、工程师等更便捷、简易地构建大规模分布式人工智能解决方案,从而加速AI应用和部署,亦有助于挖掘更多AI潜力,为各行业发展注入新动能。
好文章,需要你的鼓励
杜克大学研究团队建立了首个专门针对Web智能体攻击检测的综合评估标准WAInjectBench。研究发现,现有攻击手段极其多样化,从图片像素篡改到隐藏弹窗无所不包。虽然检测方法对明显恶意指令有中等效果,但对隐蔽攻击几乎无能为力。研究构建了包含近千个恶意样本的测试数据库,评估了十二种检测方法,揭示了文本和图像检测的互补性。这项研究为Web智能体安全防护指明了方向,提醒我们在享受AI便利时必须保持安全意识。
生成式AI的兴起让谷歌和Meta两大科技巨头受益匪浅。谷歌母公司Alphabet第三季度广告收入同比增长12%达742亿美元,云服务收入增长33%至151.5亿美元,季度总收入首次突破千亿美元大关。Meta第三季度收入512.5亿美元,同比增长26%。两家公司都将大幅增加AI基础设施投资,Meta预计2025年资本支出提升至700亿美元,Alphabet预计达910-930亿美元。
加州大学圣地亚哥分校研究团队系统研究了AI智能体多回合强化学习训练方法,通过环境、策略、奖励三大支柱的协同设计,提出了完整的训练方案。研究在文本游戏、虚拟家庭和软件工程等多个场景验证了方法有效性,发现简单环境训练能迁移到复杂任务,监督学习初始化能显著减少样本需求,密集奖励能改善学习效果。这为训练能处理复杂多步骤任务的AI智能体提供了实用指南。