我正在实现一个高斯朴素贝叶斯分类器(因此每个特征都是连续的,并且假设来自高斯分布)。在评估测试集中特征值的概率时,如果该值距离均值足够远(例如,训练数据上的均值和 sd 为 0 和 1,但测试值为 10^10),则存在下溢。这是一个问题,因为概率将被计算为 0.0,因此未定义对数概率。在这种情况下是否有处理下溢的标准方法?
在高斯朴素贝叶斯分类器中处理下溢
数据挖掘
朴素贝叶斯分类器
2022-02-23 00:32:54
1个回答
标准答案是在日志空间中工作,并操作概率日志而不是概率,正是出于这个原因。该分类器涉及概率乘积,这些乘积恰好成为对数概率的总和。
您已经提到了这一点,但是您提出的问题不是问题。在内部,您不会计算概率然后再次记录日志。它保留在日志空间中。所以对于非常小的 P,log P 是一个很大的负数,而 P 本身可能下溢到 0.0。但是您可能永远不需要在内部评估 P。
其它你可能感兴趣的问题