我正在解决一个regression使用 tensorflow 的用例DNNRegressor。出于 EDA 的目的,我参考了这篇文章并使用pandas boxplot来绘制我的数值预测变量和目标变量(这里是pid 需求)和scatter_matrix来绘制分布,这是结果:
predictor_target_boxplot;features_label_pdf_scatter_matrix
。
我需要帮助来解释这两个情节,特别是在这些方面:
- 为什么箱线图显示了超出胡须的这么多点(~10%),数据集中会有这么多异常值吗?
- 我如何处理这些异常值?
- 基于第二个图(特征,标签 pdf),我应该标准化我的特征以显示高斯分布吗?如果是这样,为什么?