数据标准化和中心化

发表于2021-08-19|更新于2021-09-18|基础知识

|阅读量:|评论数:

定义

标准化：也叫归一化，常用的有最小—最大标准化、Z-score标准化、Sigmod函数等，利用上述标准化操作，将原始数据化为无量纲的数值。这在回归和神经网络类模型是很必要的。

中心化：也叫去均质化，让数据通过中心化处理，得到均值为0的数据【如果方差为1，那就是Z-score标准化】。同时中心化后的数据对向量来说也容易描述，因为是以原点为基准的。

公式

最小—最大标准化：将数据变为0-1

$\tilde{x}=\frac{x-min}{max-min}$

Z-score标准化：

$\tilde{x}=\frac{x-u}{\sigma }$

sigmod函数：

$f(x)=\frac{1}{1+e^{-x}}$

备注：

当$\sigma=1$就是中心化公式，所以中心化可以说是一种特殊的标准化
sigmod函数其实主要是在激活函数中对上一层神经层结果进行标准化，但也可以理解成对下一层神经层的输入做标准化。

优点

提升精度：消除量纲，针对梯度下降相关的算法，不同量纲的数据会产生干扰，可能本来是A特征对结果的影响更大，但因为其量纲较小，导致其影响力还不如量纲大的特征，从来导致精度的下降。
提神速度：同样，由于消除了量纲，在梯度下降过程中，将会容易收敛到最优解。

备注：但是对于非梯度下降优化器或者是树模型是可以不标准的，因为数据的量纲并不影响树模型的分裂，对于特征而言该在哪里分裂就还是在那里分裂。

文章作者: ShiHai-black

文章链接: https://shihai-black.github.io/2021/08/19/%E6%95%B0%E6%8D%AE%E6%A0%87%E5%87%86%E5%8C%96%E5%92%8C%E4%B8%AD%E5%BF%83%E5%8C%96/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 ShiHai'Blog！

数据预处理

评论

本地搜索