我有一个由连续值组成的数据集,这些值具有大约 30-50% 的零和很大的范围 (10^3 - 10^10)。我相信这些零点不是数据丢失的结果,而是机器进行测量的灵敏度的结果。我想对这些数据进行 log10 转换,以便查看分布,但我不确定如何处理零
我做了很多搜索,发现以下内容
- 向数据添加一个小常数,例如 0.5,然后对数变换
- 一种叫做boxcox变换的东西
我查找了 boxcox 转换,我只发现它与制作回归模型有关。我只想可视化分布,看看它是如何分布的。
目前,当我绘制数据直方图时,它看起来像这样

当我添加一个小的常数 0.5 和 log10 变换时,它看起来像这样

有没有更好的方法来可视化这些数据的分布?我只是想了解数据的样子,以便找出适合它的测试类型。