如果有很多异常值并且特征缺乏正态分布,应该应用什么数据处理/转换?

数据挖掘 机器学习 Python 预测建模 回归 数据清理
2022-03-02 02:49:32

我正在解决一个regression使用 tensorflow 的用例DNNRegressor出于 EDA 的目的,我参考了这篇文章并使用pandas boxplot来绘制我的数值预测变量和目标变量(这里是pid 需求)和scatter_matrix来绘制分布,这是结果: predictor_target_boxplotfeatures_label_pdf_scatter_matrix

我需要帮助来解释这两个情节,特别是在这些方面:

  1. 为什么箱线图显示了超出胡须的这么多点(~10%),数据集中会有这么多异常值吗?
  2. 我如何处理这些异常值?
  3. 基于第二个图(特征,标签 pdf),我应该标准化我的特征以显示高斯分布吗?如果是这样,为什么?
1个回答

这些评论不都是我的,我在一个松弛的论坛上问过,

箱线图在对你大喊:偏度,还有高分散。对箱线图的要求不能超过位置、分散和偏度。

还要检查这个术语异方差(完全适合你的情况)

尝试将转换切换到对数图或更低..

此外,您的 eda 不能依赖于箱线图,因为这里涉及价格。补救方法之一是进行箱型考克斯转换

https://www.differencebetween.com/difference-between-dispersion-and-vs-skewness/

http://www.statsmakemecry.com/smmctheblog/confusing-stats-terms-explained-heteroscedasticity-heteroske.html

看看它, https://datascienceplus.com/how-to-detect-heteroscedasticity-and-rectify-it/