数据挖掘 - 如果有很多异常值并且特征缺乏正态分布，应该应用什么数据处理/转换？ - 吾爱随笔录

数据挖掘机器学习 Python 预测建模回归数据清理

2022-03-02 02:49:32

我正在解决一个regression使用 tensorflow 的用例DNNRegressor。出于 EDA 的目的，我参考了这篇文章并使用pandas boxplot来绘制我的数值预测变量和目标变量（这里是pid 需求）和scatter_matrix来绘制分布，这是结果： predictor_target_boxplot；features_label_pdf_scatter_matrix 。

我需要帮助来解释这两个情节，特别是在这些方面：

1个回答

这些评论不都是我的，我在一个松弛的论坛上问过，

箱线图在对你大喊：偏度，还有高分散。对箱线图的要求不能超过位置、分散和偏度。

还要检查这个术语异方差（完全适合你的情况）

尝试将转换切换到对数图或更低..

此外，您的 eda 不能依赖于箱线图，因为这里涉及价格。补救方法之一是进行箱型考克斯转换

其它你可能感兴趣的问题