上QQ阅读APP看书,第一时间看更新
3.3 实值数据与单变量回归
在使用深度学习分类模型时,了解如何处理分类数据是非常重要的,然而,知道如何为回归准备数据也同样重要。包含连续实际值的数据,如温度、价格、重量、速度等,比较适合回归分析,也就是说,如果有一个包含不同类型值的列的数据集,其中一个是实值数据,那么就可以对该列进行回归分析。这就意味着可以使用数据集的所有其余部分来预测该列上的取值。这种做法通常称之为单变量回归,或者说一个变量的回归。
如果对回归数据做归一化处理,那么大多数机器学习方法都能更好地工作。意思是,数据将通过使用其特殊的统计特性,使得计算更加稳定。这对于那些很多遭受梯度消失或梯度爆炸的深度学习算法来说是至关重要的(Hanin,B.,2018)。例如,在计算神经网络中的梯度时,误差需要从输出层向输入层进行反向传播,但是如果输出层的误差较大,取值的变化范围(即分布)也很大,那么向后的乘法运算就会使得变量值发生溢出,破坏训练过程。
为了克服这些困难,最好将用于回归分析的变量或实值变量的分布进行标准化处理。标准化处理的过程有许多体,但是我们在这里只讨论两种主要方法,一种是设置数据的特定统计属性,另一种是设置数据的特定范围。