1.1 数据资产的重要性
随着算法的不断创新、训练数据的不断收集、硬件算力的不断增强,机器学习技术,特别是深度学习技术(Deep Learning,DL)在人工智能(Artificial Intelligence,AI)应用领域取得了巨大的成功[232,279,113]。例如,在图像识别领域,通过卷积网络实现的视觉算法在识别错误率上早已超越人类[128];在自然语言处理领域,Google在2018年提出的BERT算法[84],刷新了自然语言处理的11项纪录;在推荐系统领域,YouTube[75]、Facebook[216]、Netflix[112]等科技公司正在使用智能的推荐引擎,通过分析用户的历史数据,为用户推荐个性化的内容和商品,有效提升用户的黏性和留存率。
但我们也应该注意到,当前深度学习所取得的成功,无一不是建立在大量数据基础之上的[232,279,268]。图1-1展示了互联网数据中心(IDC)对当前互联网每年产生的数据总量的统计预测[79],预计2021年全球将产生超过50 ZB的数据,到2025年更是将达到175 ZB。
图1-1 互联网数据中心(IDC)对互联网数据总量的预测(图片来源于IDC白皮书[79])
在过去很长的一段时间里,数据的价值主要体现在作为一种“燃料”,为人工智能模型提供大量的样本训练数据,帮助提升模型的效果。但随着移动互联网的快速发展,数据的规模变得越来越庞大、复杂,数据的价值已经不再局限于训练数据,而是以资产的形式服务于企业,并给企业带来经济收益。
这种经济收益可以体现在两个方面:一方面是数据作用于产品或者业务,间接帮助提高产品的收益,比如各运营商或者社交网络服务商都拥有丰富的用户数据,因此可以基于用户的行为数据、位置信息等,为每个客户构建完善的用户画像,帮助企业深入了解客户行为偏好和需求;另一方面,数据直接与企业收益相关,比如各金融机构有用户的历史逾期数据,一个有效的对逾期客户的识别模型,能够大大降低金融机构的贷款风险,减少潜在的经济损失。数据的资产属性也催生了一种新的商品交易模式:大数据交易。我们将在第14章详细讲解基于联邦学习构建的大数据交易市场。