数据标准化和中心化
定义
标准化:也叫归一化,常用的有最小—最大标准化、Z-score标准化、Sigmod函数等,利用上述标准化操作,将原始数据化为无量纲的数值。这在回归和神经网络类模型是很必要的。
中心化:也叫去均质化,让数据通过中心化处理,得到均值为0的数据【如果方差为1,那就是Z-score标准化】。同时中心化后的数据对向量来说也容易描述,因为是以原点为基准的。
公式
最小—最大标准化:将数据变为0-1
Z-score标准化:
sigmod函数:
备注:
- 当$\sigma=1$就是中心化公式,所以中心化可以说是一种特殊的标准化
- sigmod函数其实主要是在激活函数中对上一层神经层结果进行标准化,但也可以理解成对下一层神经层的输入做标准化。
优点
- 提升精度:消除量纲,针对梯度下降相关的算法,不同量纲的数据会产生干扰,可能本来是A特征对结果的影响更大,但因为其量纲较小,导致其影响力还不如量纲大的特征,从来导致精度的下降。
- 提神速度:同样,由于消除了量纲,在梯度下降过程中,将会容易收敛到最优解。
备注:但是对于非梯度下降优化器或者是树模型是可以不标准的,因为数据的量纲并不影响树模型的分裂,对于特征而言该在哪里分裂就还是在那里分裂。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 ShiHai'Blog!
评论