定义

标准化:也叫归一化,常用的有最小—最大标准化、Z-score标准化、Sigmod函数等,利用上述标准化操作,将原始数据化为无量纲的数值。这在回归和神经网络类模型是很必要的。

中心化:也叫去均质化,让数据通过中心化处理,得到均值为0的数据【如果方差为1,那就是Z-score标准化】。同时中心化后的数据对向量来说也容易描述,因为是以原点为基准的。

公式

最小—最大标准化:将数据变为0-1

Z-score标准化:

sigmod函数:

备注

  1. 当$\sigma=1$就是中心化公式,所以中心化可以说是一种特殊的标准化
  2. sigmod函数其实主要是在激活函数中对上一层神经层结果进行标准化,但也可以理解成对下一层神经层的输入做标准化。

优点

  1. 提升精度:消除量纲,针对梯度下降相关的算法,不同量纲的数据会产生干扰,可能本来是A特征对结果的影响更大,但因为其量纲较小,导致其影响力还不如量纲大的特征,从来导致精度的下降。
  2. 提神速度:同样,由于消除了量纲,在梯度下降过程中,将会容易收敛到最优解。

备注:但是对于非梯度下降优化器或者是树模型是可以不标准的,因为数据的量纲并不影响树模型的分裂,对于特征而言该在哪里分裂就还是在那里分裂。