怎么选择手机网站建设,做一个简单的公司网站要多少钱,在线字体设计网站,网站建设从入门pdf分类目录#xff1a;《深入理解联邦学习》总目录 在实际中#xff0c;孤岛数据具有不同分布特点#xff0c;根据这些特点#xff0c;我们可以提出相对应的联邦学习方案。下面#xff0c;我们将以孤岛数据的分布特点为依据对联邦学习进行分类。
考虑有多个数据拥有方…分类目录《深入理解联邦学习》总目录 在实际中孤岛数据具有不同分布特点根据这些特点我们可以提出相对应的联邦学习方案。下面我们将以孤岛数据的分布特点为依据对联邦学习进行分类。
考虑有多个数据拥有方每个数据拥有方各自所持有的数据集 D i D_i Di可以用一个矩阵来表示。矩阵的每一行代表一个用户每一列代表一种用户特征。同时某些数据集可能还包含标签数据。如果要对用户行为建立预测模型就必须要有标签数据。我们可以把用户特征叫做 X X X把标签特征叫做 Y Y Y。比如在金融领域用户的信用是需要被预测的标签 Y Y Y在营销领域标签是用户的购买愿望 Y Y Y在教育领域则是学生掌握知识的程度等。用户特征 X X X加标签 Y Y Y构成了完整的训练数据 ( X , Y ) (X, Y) (X,Y)。但是在现实中往往会遇到这样的情况各个数据集的用户不完全相同或用户特征不完全相同。具体而言以包含两个数据拥有方的联邦学习为例数据分布可以分为以下三种情况
两个数据集的用户特征 ( X 1 , X 2 , ⋯ ) (X_1, X_2, \cdots) (X1,X2,⋯)重叠部分较大而用户 ( U 1 , U 2 , ⋯ ) (U_1, U_2, \cdots) (U1,U2,⋯)重叠部分较小两个数据集的用户 ( U 1 , U 2 , ⋯ ) (U_1, U_2, \cdots) (U1,U2,⋯)重叠部分较大而用户特征 ( X 1 , X 2 , ⋯ ) (X_1, X_2, \cdots) (X1,X2,⋯)重叠部分较小两个数据集的用户 ( U 1 , U 2 , ⋯ ) (U_1, U_2, \cdots) (U1,U2,⋯)与用户特征重叠 ( X 1 , X 2 , ⋯ ) (X_1, X_2, \cdots) (X1,X2,⋯)部分都比较小。
为了应对以上三种数据分布情况我们把联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习如下图所示
横向联邦学习
在两个数据集的用户特征重叠较多而用户重叠较少的情况下我们把数据集按照横向即用户维度切分并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。这种方法叫做横向联邦学习。比如有两家不同地区银行它们的用户群体分别来自各自所在的地区相互的交集很小。但是它们的业务很相似因此记录的用户特征是相同的。此时就可以使用横向联邦学习来构建联合模型。GoogIe在2017年提出了一个针对安卓手机模型更新的数据联合建模方案在单个用户使用安卓手机时不断在本地更新模型参数并将参数上传到安卓云上从而使特征维度相同的各数据拥有方建立联合模型的一种联邦学习方案。
纵向联邦学习
在两个数据集的用户重叠较多而用户特征重叠较少的情况下我们把数据集按照纵向即特征维度切分并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法叫做纵向联邦学习。比如有两个不同机构一家是某地的银行另一家是同一个地方的电商。它们的用户群体很有可能包含该地的大部分居民因此用户的交集较大。但是由于银行记录的都是用户的收支行为与信用评级而电商则保有用户的浏览与购买历史因此它们的用户特征交集较小。纵向联邦学习就是将这些不同特征在加密的状态下加以聚合以增强模型能力的联邦学习。目前逻辑回归模型树型结构模型和神经网络模型等众多机器学习模型已经逐渐被证实能够建立在这个联邦体系上。
联邦迁移学习
在两个数据集的用户与用户特征重叠都较少的情况下我们不对数据进行切分而可以利用迁移学习来克服数据或标签不足的情况这种方法叫作联邦迁移学习。比如有两个不同机构一家是位于中国的银行另一家是位于美国的电商。由于受到地域限制这两家机构的用户群体交集很小。同时由于枳构类型的不同二者的数据特征也只有小部分重合。在这种情况下要想进行有效的联邦学习就必须引入迁移学习来解决单边数据规模小和标签样本少的问题从而提升模型的效果。
参考文献 [1] 杨强, 刘洋, 程勇, 康焱, 陈天健, 于涵. 联邦学习[M]. 电子工业出版社, 2020 [2] 微众银行, FedAI. 联邦学习白皮书V2.0. 腾讯研究院等, 2021