联邦学习系统推荐联邦学习的最新发展及应用

同态加密的突破使联邦学习成为解决小数据隐私保护双重挑战的有力工具。

AI技术评论出版社：2019年7月12日-7月14日第四届全球人工智能与机器人峰会(CCF-GAIR 2019)在深圳正式召开。本次峰会由中国计算机联合会(CCF)主办，雷和香港中文大学(深圳)承办，深圳市人工智能与机器人研究所协办。由深圳市政府大力指导，是国内人工智能与机器人学术界、产业界、投资界三大领域的顶级交流与展示盛会，旨在搭建国内人工智能领域强大的跨界交流与合作平台。

7月13日，HKUST讲座教授、微众银行首席AI官、IJCAI董事会主席杨强为CCF-GAIR 2019“AI金融专场”做了题为“联邦学习最新发展与应用”的会议报告。以下是杨强教授所作的会议报告全文。

大家好，今天很荣幸和大家分享联邦学习的最新发展和应用。

AI机器人助力金融

我们先来看看微众银行这两年的努力和成绩。

微众银行的目标是建立强大的AI能力，帮助小微企业成长。要做到这一点，我们不妨将金融的各个方面进行分解，以发现人工智能可以用于创新的场景：

比如人工智能可以用来帮助商业咨询(企业画像)。企业在申请贷款和账户时，进行身份验证，包括法人身份验证、个人申请账户身份验证、资料审核。此外，AI可以赋能的地方还包括操作借贷，借贷前、借贷中、借贷后全流程自动化。

具体产品案例如下：

这是一个语音客服机器人。这类产品我们也听过不少，比如智能音箱。目前语音客服机器人在垂直领域已经非常细分。目前微众银行98%的客户问题由智能客服机器人724小时解答，用户满意度相当高。为什么可以这样做？因为它融合了很多人工智能的最新技术。

众所周知，对话系统有一个难题，就是如何进行多轮问答。

以音箱的语音交互为例，我们知道，一般来说，每执行一次密码任务，用户需要说一次唤醒词，然后它就会回答你。而到了下一个问题的时候，你要说同样的唤醒词，再问它问题。多轮问答就是只要醒一次就可以问多次，回答多次。

这项技术的实现有很多难点：比如理解每一句话的意图，理解整个对话线程的意图。此外，还需要进行情绪分析。比如在某些场景下，要区分客户的不耐烦或者不满意，也要分析客户的兴趣点。机器只有分辨出这些细微的信号，才能实现高质量的多轮对话。此外，还需要多线程分析。比如用户说的上一句话和下一句话意图不同，前言不搭后语。机器需要打破这种逻辑。

总的来说，这个领域还有很多工作要做。在我们看来，对话系统最好的落地场景是：拥有上亿用户的垂直领域。

二是风控对话机器人。机器人还可以做风险控制，比如在与客户对话的过程中发现一些蛛丝马迹，识别对方是否作弊。就像我们在面试一个人或者和一个借款人交流的时候，要时刻保持警惕，防止对方出轨。

再举个车险报案的例子。发生了一起车祸。谁负责？可能记者的回答会不一致，机器人可以通过识别这些细节来实现测谎。

三是质检机器人。金融领域的特殊之处在于，每次客服与客户对话的过程中和之后，都要测试对话质量。在p

上图是质检流程。我们使用注意力机制下的深度学习来帮助进行对话和理解。质检可以帮助发现用户贷款时客服需要做的改进。比如有些客户不要给风险很大的人或者场景贷款。有时候，客服也要保持微笑的态度。如果质检机器人发现机器人客服态度不好，会自动预警。

这些都是微众银行在服务机器人方面做的工作。

小数据和隐私保护的双重挑战

不难看出，人工智能在小微企业、贷款、互联网银行等方面有很多应用。然而，这些应用也遇到了许多挑战，因此我们有必要发明一些新的算法。主要的挑战是什么？总的来说，有三点：

第一，“对抗学习”的挑战。也就是人工智能应用的造假，比如人脸识别，可以造假，可以合成人脸。如何应对这种“学习对抗”的挑战，是金融场景下人工智能安全领域的重大课题。

第二，小数据的挑战。没有好的模型，好的自动化是无法实现的。好的模型往往需要好的大数据，但往往高质量、有标签的数据都是小数据。

假设你收集数据3年，能形成大数据吗？不是这样的，因为数据都是在变化的，每个阶段的数据和前一个阶段的数据有不同的分布，也许特征会不一样。实时标注这些数据，形成好的训练数据，需要大量的人力。

不仅是金融场景，还有法律场景，尤其是医疗场景。每个医院的数据集都是有限的。如果不能把这些数据打通，每一个数据集只能做一个简单的模型，并不能达到人类医生所要求的高质量的疾病识别。

然而，现在合并数据变得越来越困难。我们看到脸书的股价在之前的一天内出现了断崖式下跌，主要是因为当时有新闻报道说它和一家美国公司之间的数据影响了美国大选。

这种事情不仅引起了资本市场的震动，法律界也开始有大动作。去年5月，欧洲首先提出了非常严格的数据隐私保护法，GDPR。GDPR对人工智能机器的使用、数据使用和数据确认提出了非常严格的要求，以至于谷歌被罚款过几次，每次金额都在数千万欧元左右。

因为GDPR有一条规定是数据使用不能偏离用户签订的协议，也许可以利用用户的大数据分析来提升产品体验，但是如果公司用这些数据来训练对话系统，就违反了协议。如果公司想用这些数据做其他事情，甚至与他人交换，前提一定是必须获得用户的同意。

还有其他严格的要求，包括遗忘权，就是如果某一天用户不希望他的数据被用在你的模型里，他有权告诉公司，把用户的数据从模型里拿出来是公司的责任。这个要求不仅在欧洲，在美国加州也有，那里实行非常严格的类似数据保护法。

中国也对数据隐私和保护进行了非常详细的研究。从2009年到2019年，有一系列的动作，而且越来越严。经过长时间的讨论和公众互动，一系列正式的法律可能会在今年年底至明年年初颁布。

(中国数据监管法律制度研究)

所以，我们会面临这样一个困境：一方面，我们的数据大部分是小数据；另一方面，数据的合并会违反隐私法规。除了法律上的限制，在利益的驱使下，公司也不愿意和其他公司交换数据。在这种现象下，很多人感到失望和灰暗，认为人工智能的冬天可能会再次到来。

但我们不这么认为。相反，我们认为挑战是机遇。这个机会让我们有必要发明一种新的技术，可以在严格遵守规定的前提下，把这些数据聚合起来建模。如何才能实现这个看似矛盾的事情，即在不交换数据的情况下保护隐私，利用大数据建立模型？这就是联邦学习的优势。

学习：横向、纵向和迁移

先来看一个流行的类比：我们每个人的大脑里都有数据。当两个人一起做作业或者写书的时候，我们并不是把两个人的脑袋在物理上结合在一起，而是两个人通过语言进行交流。所以我们写书的时候，一个人写一部分，通过语言交流，最后写一篇合作的文章或者写出来。

我们交流的是参数。在传递参数的过程中，有什么方法可以保护我们大脑的隐私？有一个办法。这种方式是让不同的组织互相传递加密的参数来构建共享模型，数据可以存储在本地。这是联邦学习的精髓。

“联邦学习”最早是Google在2016年提出的，但更多的是2C的应用。当时，谷歌特别关注其Android系统。2016年，它想知道是否可以让下一代Android系统满足GDPR的要求，并保护用户的隐私。

安卓手机上各种型号都有。比如打字的时候会提示下一个单词，拍照的时候会提示标记分类。这些都是模型驱动的，这样的模型需要不断更新。

以前最简单的更新方式就是定期把每个手机里的数据上传到云端，在云端建一个大模型。因为每个人的数据都是有限的，当几千万部手机都有大数据的时候，你就可以做一个大模型，然后把这个模型下载到每一部手机上，这样就完成了手机的一次更新。

但是现在这种做法是违反规则的，因为手机上的用户发送数据，服务器看到的是用户的数据。

这时候联邦学习的优势就出来了。从简单的定义来说，联邦学习就是在本地建立一个本地数据的模型，然后对这个模型的关键参数进行加密。这种数据加密传输到云端是无法解密的，因为它得到的是一个加密的数据包。云端用一种算法聚合数千万个数据包，更新现有模型，然后下载更新后的模型。重要的是，整个过程中，服务器云并不知道每个包里有什么。

(基于同态加密的模型平均)

听起来很难。以前真的很难，但是最近发生了一件很棒的事情，就是加密算法可以通过加密层进行运算。这种加密方式被称为“同态加密”，最近这种运算的效率大大提高了。因此，联邦学习已经成为一个强大的工具，可以同时解决隐私和小数据孤岛问题。但需要注意的是，这只是2C的一个例子，是云面对庞大用户群的一个例子。

这项技术相对较新。翻译成中文是我们第一次翻译成“联邦学习”。你可能会听到其他的翻译，比如“联合学习、联盟学习、协作学习”。我们决定采用联邦学习的翻译方法，因为听起来很顺耳，一次就能记住，所以希望以后大家都叫联邦学习。

既然科学进入了一个新的领域，就必然涉及到多学科的融合来解决社会问题。联邦学习就是一个很好的例子。

首先，我们需要了解加密和解密，以及保护隐私的安全方法。计算机领域从20世纪70年代开始就有很多研究，包括我们熟悉的教授，他获得图灵奖的研究方向是“姚的迷惑电路”，还有差分隐私。

这么多加密方法，都是做什么的？它是下面的公式：

它可以把多项式的加密分解成每个加密多项式，A B的加密就变成了A的加密加上B的加密，这是一个很大的贡献。因为这样可以让我们拿一个算法，在外面全部加密，加密层可以渗透到里面的每一个单元。这样做，我们可以改变现有的机器学习的教科书，把任何算法变成加密算法。

目前这件事还没完。欢迎在座的博士生、硕士生买一本机器学习的书，尝试把一个算法变成加密算法。

(横向联合学习)

我刚刚讲了“横向联邦学习”。横向联邦学习是每一行中可以被视为一个用户的数据。按照用户的说法，可以看做一、二、三部手机，称之为横向学习。还有一个原因就是都是垂直特征，比如手机型号，手机使用时间，电池和人的位置等等。这些都是特色。他们的特点都一样，他们的样本都不一样。这是横向联邦学习。

主要方法是先获取信用等级，然后在加密状态下汇总。这种聚合不是简单的加法，而是非常复杂的加法，然后分发信用模型。

我们期待5G的到来，并加快速度。5G是联邦学习的一件大事。现在还没有5G，所以大家想的都是各种网络的设计，底层网络的设计，甚至有人在设计联邦学习芯片，加快网络的设计和通信。这些都是研究者关注的研究方向。

(垂直联合学习)

垂直加密，每个人的特征不同，一个机构是红色的，一个机构是蓝色的。你可以想象两个医院，一个病人在红色医院做一些检查，另一个在蓝色医院。当我们知道这两家医院的患者群体相同，又不愿意直接交换数据时，有什么办法可以联合建模？

他们中间有一道系墙。我们可以在每一边建立一个深度学习模型。建模的关键步骤是梯度下降。我们需要知道梯度下降的几个参数，前一轮的参数，损失(梯度)来匹配下一个模型的权重参数。在这个过程中，我们需要得到所有模型的参数水平。这个时候，我们需要交换它们。在交换时，我们可以使用同态加密算法或安全多方计算。有一系列的算法。双方交换加密参数，另一方再次更新和交换参数，直到系统被覆盖。

(联邦迁移学习)

就像我刚才说的，它们在功能上要么相同，要么不同，但是它们的一些用户是有交集的。当用户和功能没有交集的时候，我们退一步想一想。我们可以减少或增加他们空间的维度，把他们带到另一个空间。

在其他空间中，可以发现它们的子空间是相互作用的，这些子空间的相互作用可以用于迁移学习。虽然它们的特点和用户没有直接的重合，但是对于迁移学习我们还是可以找到共性的，这就是所谓的联邦迁移学习。

学习联邦的三大案例

(基于联邦学习的企业风险控制模型)

我们来看一个微众银行和合作公司的案例。微众的特点是用户Y多，我们把数据集分为X和Y，其中X是用户的特征和行为，Y是最终结论。我们在银行的结论是信贷是否逾期，也就是逾期概率。合作伙伴企业可能是互联网企业也可能是卖车的、卖保险的，不一定有结论数据Y，但是有很多行为信息x。

现在这两个领域如果想为同一组用户建模，就属于垂直联邦学习，垂直联邦学习的应用就成立了。最后取得了很好的效果，AUC指数大幅提升，不良率大幅下降。

(联邦学习解决方案的效果)

这个例子说明，在没有物理交换数据的前提下，两个企业通过联邦学习确实有可能互惠互利。好处效应就是两边的数据确实不一样，互补。在联邦学习和非联邦学习中间，联邦学习扮演着几个角色：

在业务上，如果向合作公司的老板说明联邦学习可以保护隐私，那么促进两个企业的合作会更容易。这是一种在业务上成为BD同事的极大乐趣，因为BD的成功率大大提高了。

技术上确实能保证合法的联邦学习，而且是有效的。

我们来看第二种情况。这个案子根本不是为了商业目的，而是为了城管。我们知道有很多工地，很多摄像头是用来监控工地安全的。例如，我们想知道工人是否戴安全帽，是否发生火灾，是否有人吸烟。我们以前都是派人去看，然后派摄像机在摄像机前看。

现在能不能用自动化的方法和模型的方法来检测这些事情的发生，以及有多严重？在香港，如果工人不戴帽子，工地会被勒令停工三天，这对工期非常不利，老板们都很紧张。老板们过去的做法是用纸盖住摄像头的正面，这样政府就看不到了。政府发现这一点后，规定只要蒙眼是违法的，就停工三天。

所以现在有人来找我说，AI有办法吗？但是AI有不同的摄像头，包括政府摄像头，地方摄像头，外包公司。我们不希望对方看到这些摄像头拍下的脸，这是隐私问题。现在已经用联邦学做了，已经用在几个工地上了。

第三种情况是语音识别。关于语音识别的数据很多，有不同的子场景，比如保险客服中的语音识别，质检中的语音识别等。这些数据可能来自不同的数据采集者，他们都不愿意把数据给对方，因为数据本身就是一种资源。现在我们用联邦学习把它们联系在一起，建立一个共享的ASR模型，现在已经取得了很大的成就。

联邦学习必须是生态的。

联邦学习就像一个操作系统。你不能一个人玩。它的特点是多方合作。只有各方都认可，你才能做到。因此，我们非常重视建立一个联邦学习的生态。

为此，我们在学术界和工业界进行了大量的宣传，希望你们今后都能参加。8月12日，IJCAI大会将在澳门举办一场公开的FML。是一整天的研讨会，很多业内人士都会做演讲。

同时，我们做了很多开源项目。不仅是我们，全世界都在为联邦学习做开源项目。希望你能积极参与其中。我们的FATE系统也捐赠给了Linux基金会。

同时，我们也在推动建立国际标准IEEE P3652.1，第三次会议于8月11日在澳门召开。现在进展很快，参与的公司也很多。同时，我们也在中国建立了标准。工信部刚刚推出了第一个联邦学习的团体标准，下一步就是推行国家标准。

之所以推标准，是因为联邦学习和操作系统一样，是机构之间的沟通语言。机构合作首先要有语言(字典)，每个人都要会说这种语言，才能做到。因此，我们非常希望建立这样一个标准并加以推广。也希望你能以这种方式参与IEEE标准委员会。谢谢大家。

标签：数据联邦学习

声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，谢谢。

推荐阅读