您将使用哪种概率分布来模拟异常值?

数据挖掘 可能性
2022-02-25 03:56:55

在最近的一次数据科学家职位采访中,我被问到这个问题:您将使用哪种概率分布来模拟异常值?

我告诉他异常值就像可以通过泊松分布建模的罕见事件。我很确定我错了,面试官似乎也这么认为。但我不知道这个问题的答案。

请指教。

1个回答

我认为答案是高斯分布。这是一种用于异常检测的著名方法。您所做的是使您的特征适合高斯分布,并且概率低于特定阈值的样本被标记为异常值。

引用论文建模异常值分数分布

许多现有的无监督异常值检测算法计算每个数据对象的某种分数,作为异常值程度的度量。分数用于对数据点进行排序,以便将前 n 个点视为异常值。例如,[4] 中提出的基于统计的方法,使用高斯混合模型来表示正常行为,并根据模型的变化对每个数据进行评分。高分表示成为异常值的可能性很高。

用法示例 - 1

使用示例 - 2