联邦学习实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

5.3 横向数据集切分

为了模拟横向联邦建模的场景,首先在本地将乳腺癌数据集切分为特征相同的横向联邦形式,假设当前有两方参与横向联邦训练,如图5-3所示。

图5-3 两方参与的横向联邦训练

取乳腺癌数据集的前469条样本作为训练样本数据,后100条数据作为测试数据,数据切分的策略如下。

• 训练数据切分:将469条数据按行切分为两份数据,选取其中前200条作为公司A的本地数据,保存为breast_1_train.csv,将剩余的269条数据作为公司B的本地数据,保存为breast_2_train.csv。

• 测试数据集:测试数据集不需要切分,两个参与方使用相同的一份测试数据即可,文件命名为breast_eval.csv。数据分布如图5-4所示。

图5-4 横向数据分布