极左偏的响应变量 - 我如何建模这个数据集?

机器算法验证 混合模式 负二项分布 咕噜咕噜 偏度 泊松回归
2022-03-27 21:11:15

这是显示我的响应变量的直方图。

响应变量的直方图

响应是#(或比例?或百分比?)从田间卡片上吃掉的蚜虫,以模拟天敌的捕食。

预测变量:固定效应是分类的(即作物类型、季节)和连续的(即景观变量——生产用地的数量、平均农田面积),而变量“景观”是随机效应。

到目前为止,我一直在使用反映的响应变量(“剩余的蚜虫数量”而不是“吃掉的蚜虫数量”)来解决这个问题,这样它就可以正确倾斜,这似乎更有可能。但如果可能的话,我宁愿用它作为左倾的,结果会更容易讨论。

转换无助于减少响应变量的偏斜。

具有泊松误差的 GLMM 不起作用,因为创建的模型过于分散。具有负二项式误差的 GLMM - 同样的问题。我尝试对将响应变量视为连续的数据进行建模的任何方式,都会在我进行模型检查时给我带来问题,例如拟合图中具有清晰模式的残差和过度分散。我开始怀疑我是否需要以某种方式对响应中的数据进行排名?还是将其划分为类别?

我得到的潜在解决方案是障碍模型:

“跨栏模型将模型分为两部分:生成正计数与零计数的二进制过程,以及仅生成正计数的过程。二进制过程使用广义逻辑回归建模,正计数过程使用零建模-截断计数模型”(转述自 Zeilis, Kleiber & Jackman 2008)

有没有办法在 R 中做到这一点?还是我只是分别做这两个模型,然后分别讨论?或者有没有办法获得障碍模型的 AIC 值?

有人对如何建模这个数据集有任何其他想法吗?

TIA 的任何帮助,非常感谢。这个数据集一直是我的眼中钉太久了!!

编辑添加

我现在认为 tobit 模型(审查回归)是我需要对这个数据集建模的方式。它仅适用于为我的固定效果建模。但我仍然无法弄清楚如何制作这样一个混合效果的模型。这些数据点按站点分组(每个站点 3 个点),因此它需要是随机效应。有没有办法进行具有混合效果的审查回归?

2个回答

跨栏模型和零膨胀模型都可以对倒置变量起作用。如果你想保持原样,你可能需要做一些编程。

包中同时提供R功能这里有一个小插曲,它还涵盖了一些其他做同样事情的包。psclhurdlezeroinfl

这就是R,如果你确实想玩这个程序,你可以很容易地看到代码:

install.packages("pscl")
library("pscl")
zeroinfl

@whuber对相关问题的回答(“如何对这种奇形分布(几乎是反向 J)进行建模”)建议使用审查回归并提供一个带有censReg示例。您的案例似乎受到更严格的审查,但您可能有一点点真实也是(根据我的直觉,不值得担心,这不是基于直接经验)。应该可以计算这些模型的 AIC (参见Wang, Liu, Lu, Latenbaolide, & Lu, 2011顺便说一句,划分为类别(多分类)通常是一个坏主意(有关更多信息,请参阅我的答案)。