我是一名生物学家,使用不同的软件包,如 DESeq,... 来规范我的数据并找到顺从表达的基因。
最近我开始学习概率和统计,我已经很好地研究了分布。但我仍然有一个问题:我想我不太明白为什么我们真的使用这种分布来推断基因的表达水平、归一化、找到差异表达的基因?
为什么我们需要例如泊松模型、负二项式……来获得近似的表达水平?或在名为 mmseq 的包中:“使用 mmseq 程序通过对读取或读取对(片段)到转录集的映射进行建模,推断每个转录本的表达水平”!为什么要建模?为什么我们需要估计表达水平,而我们可以直接计算每个基因的读取数?
或者为什么将读取计数建模为例如泊松过程是合适的?
...
仅仅是因为知道分布(例如负二项式,它可以很好地解释观察到的计数,考虑到噪声,......)有助于我们在数据或有更多的东西可以从分布中学到吗?
抱歉,如果我的问题很原始,但我为此苦苦挣扎了很长时间