至顶网计算频道 09月25日 新闻消息(文/李祥敬):数字经济的快速发展,产生了海量的数据,深刻地影响着各行各业。特别是人工智能的快速发展,算法的日趋成熟和算力的日渐丰沛,让大规模与高质量的数据成为影响AI效能的重要因素。但是现实中,大多数行业中因为数据分散形成的“数据孤岛”导致数据无法被充分利用,越来越受到关注的“数据隐私保护”已经成为每一位数据科学家和民众最关注的问题之一。
不同企业、部门所属数据源彼此孤立而造成的训练数据不足,造成了AI模型训练效果不佳,直接反映出来就是落地效果不理想。数据量有限和存在数据源的壁垒,限制了人工智能技术的快速发展。而传统上,任何一个机构或企业要利用多个数据源共同训练模型,系统就必需将数据整合到一起,但这种做法无法保证数据交互的安全性,也加大了数据泄露的风险。比如前一阶段备受争议的ZAO应用,该APP涉嫌违规采集生物信息具有泄露用户隐私的风险,直接被工信部约谈。
因此,AI训练需要更有安全保障的数据聚合方法来提升多源数据协同能力。在此背景下,联邦学习方法成为解决打破“数据孤岛”与“数据隐私保护”两难困境的重要技术手段。什么是联邦学习?联邦学习是隐私保护下的机器学习、深度学习的可实现路径以及数据孤岛问题的解决方面,我们可以把它理解为是在保护数据隐私前提下的分布式加密学习技术。
传统的机器学习会遇到一些问题,比如模型参数非常多,训练过程非常耗时。联邦学习面对的是复杂的学习环境,强调的是在分布式的训练环境下中,充分保证对数据的隐私保护,做到数据不离开本地,但同时可以做到联合建模,达到更加完善的建模效果。
平安科技联邦学习技术团队(以下简称“联邦学习团队”)通过利用联邦学习方法,结合落地场景提升模型精度同时保证多方数据隐私安全的痛点,聚合更多来源、更多维度和更高质量的数据,实现多方数据来源的联邦学习建模的生产落地。
平安科技副总工程师,资深AI总监王健宗博士提出,在互联网领域以及金融保险领域,单一来源的数据导致机器学习的效果比较差,如何把多源的数据在进行数据整合的情况下,进行一个联合建模,或者联合模型训练,成为急需解决的问题。“如何进行数据整合,同时满足法律法规以及用户安全隐私的要求,我们的解决方案就是联邦学习。基于英特尔软件防护扩展(英特尔Software Guard Extensions,以下简称英特尔SGX)技术所具备的特性,平安科技联邦学习团队与英特尔一起进行了技术的探索和研究,在平安科技提出的联邦学习解决方案中设计了1+N式的多源数据AI模型训练方法,实现了数据隐私的深度保护和建模效果有效提升。”
人工智能是平安科技最重要的业务之一,其以海量的数据作为底层支撑,通过数据分析用户的画像以及他们的行为习惯,再加上AI的能力,最终实现产品的落地。在这一过程中,平安科技与英特尔在诸多领域进行了广泛的合作。比如在多模态的识别中,平安科技通过使用英特尔至强可扩展处理器构建AI算力,实现了;在车险的投保和理赔中,平安自主研发了智能闪赔的解决方案,可以实现从报案到赔付全流程自主赔付,而这个方案也充分利用了了英特尔AI的高效支持;在银行合同审核场景中,平安科技与英特尔共同合作,优化自然语言处理的各类模型,在进行深度训练,上下文的审核中,可以推测句子中的单词意思,大大提高了准确度与速度。
“我们跟英特尔合作是很紧密的,从英特尔AI推理加速OpenVINO到SGX优化,包括对产品加速落地和性能提升的共同探讨。英特尔希望能够支持更多的行业和公司,这也是我们希望看到的。平安科技跟英特尔通过前期良好的合作基础,后续的合作肯定会更加升华。在英特尔整个生产线上,基于英特尔突出的软件实力,深化双方的合作,为平安科技着力打造的“联邦智能”添砖加瓦,这是一个必然的趋势。”王健宗博士提到。
在王健宗博士看来,联邦学习是突破人工智能最后一公里的必经之路。基于联邦学习所打造的联邦智能还是属于人工智能的范畴,其最终目标是实现真正的“智能”,但是在实现人工智能过程当中需要一个强有力的,能够突破瓶颈的推手,这就是联邦智能的一个机会。“我们和英特尔一起共同打造联邦生态。联邦学习生态的目标是通过联邦学习、提联邦数据库、联邦数据中心、联邦可视化,来共同实现的联邦智能。联邦智能和联系学习的关系就像人工智能和深度学习之间的关系,联邦智能是应用在联邦学习技术基础之上实现一个联合建模,为特定的场景实现整体解决方案,将来在人工智能之后很有可能就是联邦智能。”
联邦学习可以在本地进行模型训练,数据参数要汇总到中心服务器上面,进行联邦处理,中心服务器再将训练好的模型下发到各个数据应用方。根据不同的数据情况,联邦学习的方法可以分为联邦横向学习、联邦纵向学习两类。
对于联邦学习的优势,王健宗博士解释道,传统方法是将所有的数据整合到一方进行训练,而经过联邦学习训练后得到的训练模型效果是可以做到精度不低于将数据直接整合,然后进行模型训练的效果。其次,联邦学习过程中,每个参与方的数据是完全保持在本地的,每一次的得带需要上传的只又模型的梯度参数,这就充分地保证了数据的安全性。再次是隐私性,联邦学习在数据交换过程中有加密机制,无论是同态加密还是差分隐私技术,进一步保障了传输参数信息的安全,用户的隐私得到了最大化的保证。最后,在法律法规要求越来越严格的情况下,联邦学习满足了合法合规的要求,这也是联邦学习一个很大的优势。
正是这些优势,联邦学习在场景应用方面具有广泛的前景。以联邦学习在保险行业的应用为例,以往用户在投保时,业务人员只能根据用户的年龄、性别等基本信息来确定保费金额。但随着信息社会的不断发展,用户数据的数量和特征维度得到了大幅的增加。例如对于健康类险种来说,业务系统如果能够利用海量的病历、家族病史等数据进行AI预测,同时还能实现对用户数据隐私安全的充分保障,并得到更加细分的健康评估类别,就有望提升投保人健康评估结果的准确度。
但病历、病史等,无疑是各个健康医疗机构中需要绝对确保隐私的数据,不仅不可能予以公开,更需要提升安全等级予以保护。现在,通过联邦学习方案的引入,保险企业可以在不触及用户数据的情况下开展保险定价模型的AI训练。
相对于互联网领域,金融领域在监管方面的要求力度更大。也就是数据不出本地的要求更加严格,联邦学习的优势是打破数据孤岛,在保证安全性以及隐私性的要求下,允许跨数据所有者建模。联邦学习在金融场景中有着广泛的应用,比如客户画像、精准营销,包括联合建立风控系统等。王健宗博士提出,以精准营销为例,平安科技和平安集团其它金融子公司合作,定位到我们同一批用户,可以利用推荐模型打包推荐产品,更好地进行用户行为分析以及交叉销售,这就是联邦学习的力量。
不管是AI安全还是数据安全,安全保护都是整个逻辑中非常重要的一环。在联邦学习和训练的过程中,就需要传输交换参数,传统方法是使用加密算法中进行非正常加密,从而保证数据传输过程中不被外部进行恶意攻击。
通过硬件增强型安全技术的支持,在特定硬件中建立一个可信执行环境(Trusted Execution Environment,TEE),使外界无法触达和攻击敏感的数据和应用,是应对这一问题的更为有效的手段。
王健宗博士表示,平安科技联邦学习团队基于这一理念打造并构建了全新的蜂巢联邦学习平台,为用户提供数据隐私安全保护的一站式解决方案。在该平台的构建过程中,如何进一步增强多源数据在其本地的安全性,如何为AI模型调优的中间过程提供更可信的安全保障,以及如何有效地评估各数据源对于最终优化结果的贡献度,都是非常重要的隐私。为此,联邦学习团队与英特尔一起,通过引入英特尔SGX技术,为以上问题提供了更优的解决方案,这也是现在蜂巢联邦学习平台的优势之一。“联邦智能意味着什么?就是安全可信的智能,这是未来的趋势。”
在特定硬件的环境进行计算,不管在算法层面或者硬件层面,平安科技的联邦学习方案借助英特尔SGX技术做到了双重加密的机制,保护代码和数据机密性和完整性,有效阻断外部恶意攻击。还有通过内存加密技术,保护程序状态的安全,从根本上杜绝了数据隐私泄露的问题。 “英特尔致力于打造可信计算数据分析的可信环境,而SGX技术可以实现可信执行环境,正好符合目前联邦学习的运算需求。”王健宗说。
联邦学习更多是为了解决在数据不共享、隐私保护的前提下实现共同建模、共同分析的一个技术,如果没有英特尔SGX技术的话,而是通过传统的软加密方式,比如在传统的深度学习框架TensorFlow、PyTortch、Caffe、MxNet等上面改造,这样带来的一个问题是导致在信息处理传输中因为加解密会消耗太多的时间。如果有SGX技术构建的硬件可信平台,就可以把接口封装好,在信息传递加解密过程当中更快更高效,加快迭代训练。
在平安科技的联邦学习方案中,通过处理器指令,英特尔SGX技术可在联邦学习的各节点中,创建更有助于确保数据安全的内存“飞地”,用于中间参数的交互和传输,以杜绝内外部攻击,为多源数据环境下的联邦学习实践探索提供更为可靠的安全保障。在这一过程中,英特尔架构处理器为“飞地”的构建、加密通道的敷设以及中间参数的交互和聚合提供强大的算力支持。
王健宗博士表示,联邦学习对于硬件的要求是数据在传输过程当中能够实现实时的加解密,在分布式环境下实现高效联合建模,这有赖于计算、存储、网络等。比如在网络层,5G给联邦学习提供了很好的机会。而在存储层,因为涉及到大量的小数据读写,海量IO并发,这也要求存储架构足够强壮。英特尔傲腾数据中心级持久内存,性能优化的英特尔傲腾固态盘,与基于QLC技术、成本优化的英特尔3D NAND固态盘有机结合,能降低从系统存储获取数据的高延迟,促进数据流动,提升数据的可处理性。
结合英特尔SGX技术的1+N联邦学习解决方案,可以更精确地评估各节点数据对于AI模型训练的贡献度,方便用户对方案进行调整。在1+N式方案中,当有N个数据源时,可以先对所有节点进行训练,得到全量的训练效果。而后再分别对除了待评估节点以外的N-1个节点进行训练(例如评估节点#1时,对节点#2至#N进行训练),在得到不同训练效果的模型后,系统可以计算出每个数据节点在联邦学习中的“贡献系数”,从而对各个数据节点在AI联合训练中的贡献度做出更为精确的评估,并据此进行方案调整。
王健宗薄设计说,以上算法和调度,可能会对联邦学习的性能有所影响,是否奏效还需要用实践来予以验证。但如何进一步利用英特尔技术所构建的’飞地‘,确实还有很大的空间等待探索和发掘。“双方共建联邦生态,未来的合作空间非常大。我们本着开源的精神希望未来通过构建联邦智能,和以联邦学习为基础技术的深入探索,进行落地应用研究。相信构建联邦智能的生态是肯定可以实现的。”
目前,平安科技联邦学习团队正在利用联邦学习方法,重点研发设计面向数据强监管的金融业多态多任务学习模型,满足银行和金融机构在风险评估、反洗钱、投顾、投研、信贷、保险和监管等众多应用场景中的需求,帮助用户利用AI能力构建更有效的风控和营销模型,有效识别信用卡盗刷、贷款逾期、金融欺诈等潜在金融风险,有效减少金融企业的经营风险。同时,联邦学习方法也能帮助用户利用横向数据实施用户画像,拓展销售通道,优化营销策略,为企业销售能力的提升提供一个强有力的智能化引擎。
“联邦学习的时代已经到来。在未来,联邦学习团队还将与英特尔进一步开展技术合作,以更多、更先进的技术驱动数据资源在联邦学习中的安全运转和高效转化,并与更多企业和机构相互协作,打破数据壁垒,推动联邦学习在各行各业中的快速发展和应用。我们相信联邦学习将重塑今天人工智能领域乃至整个计算机领域的生态。”王健宗博士总结道。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。