数据挖掘 - 人们使用什么思维过程来生成变量概率分布的先验？ - 吾爱随笔录

例子

考虑一个文本块，其中包含各种句子类型，其中有 7 个。在一个文本中，这些句子或多或少出现的可能性取决于它们在文本中的位置，以及在它们之前的句子类型.

我正在研究使用贝叶斯推理作为一种方法来计算出现在文本中某些点的不同句子类型的可能性，考虑到它们在文本中的位置以及它们之前出现的句子类型。

我的问题

有问题的变量是句子类型，在贝叶斯推理中，有必要假设变量的先验分布才能领先，这就是我正在努力解决的问题。有些句子类型几乎都在开头或结尾；除非其他类型出现在它之前，否则其他人将不太可能出现；他们在不同文本的语料库中出现的频率各不相同，如下图所示：

更广泛的问题

如果您建议采用不同的方法来解决此问题，请说。

建议的解决方案

这个变量有一些属性：

我猜有一些概率分布非常适合属性（1），但属性（2）我更困惑。