为什么我们需要使用泊松、负二项式、

机器算法验证 生物统计学 生物信息学
2022-04-21 03:40:53

我是一名生物学家,使用不同的软件包,如 DESeq,... 来规范我的数据并找到顺从表达的基因。
最近我开始学习概率和统计,我已经很好地研究了分布。但我仍然有一个问题:我想我不太明白为什么我们真的使用这种分布来推断基因的表达水平、归一化、找到差异表达的基因?

为什么我们需要例如泊松模型、负二项式……来获得近似的表达水平?或在名为 mmseq 的包中:“使用 mmseq 程序通过对读取或读取对(片段)到转录集的映射进行建模,推断每个转录本的表达水平”!为什么要建模?为什么我们需要估计表达水平,而我们可以直接计算每个基因的读取数?

或者为什么将读取计数建模为例如泊松过程是合适的?

...

仅仅是因为知道分布(例如负二项式,它可以很好地解释观察到的计数,考虑到噪声,......)有助于我们在数据或有更多的东西可以从分布中学到吗?

抱歉,如果我的问题很原始,但我为此苦苦挣扎了很长时间

2个回答
  1. 数据是计数数据,因为它是与基因对齐的计数数。它不是连续的,因此不能建模为正态分布。
  2. 泊松分布是为计数数据建模而设计的。
  3. 然而,泊松分布假设一阶矩和二阶矩(均值和方差)相等。这不适用于 RNA-Seq。低表达基因比高表达基因具有更高的变异性。
  4. 为了解释可变性,我们使用负二项式模型,它实际上是泊松的扩展。NB 模型有一个额外的参数来为方差建模。可以证明,作为均值的方差方法,NB 模型变成了 Poisson 模型。

编辑

要回答您的意见:

  1. 标准化通常是对文库之间不同的测序深度建模所必需的。但是,如果您使用 DESeq2 或 edgeR,则不需要自己做。他们有自己的归一化算法(修剪均值和上四分位数)。

  2. 这些包为您进行规范化。将您的数据拟合到 NB 模型,估计离散度(即:方差)。一旦他们有了模型,他们就可以使用所需的任何统计方法(我认为这是 DESeq2 的 Wald 检验)来检查差异表达的基因。结果取决于它们表达了多少以及它们有多少差异。

通常对计数进行建模时考虑到:

1 - 它们只取整数值
2 - 它们总是非负数
3 - (最重要的是)它们的可变性随着它们的平均值而增加

当计数的离散度大于 Poisson 的预期值时,使用负二项式。在这两种情况下,通常使用对数链接进行建模。