听起来你基本上有模型选择的问题。我认为这最好作为一个决策问题来对待。你想表现得好像你选择的最终模型是真正的模型,这样你就可以对你的数据做出结论。
因此,在决策理论中,您需要指定一个损失函数,它说明您将如何对每个模型进行排名,以及您将在其中做出决定的一组替代模型。有关推理中假设检验的决策理论方法,请参见此处和此处。这是一个使用决策理论方法来选择模型的方法。
听起来您想使用p 值作为损失函数(因为这就是您想要比较模型的方式)。因此,如果这是您的标准,那么您选择 p 值最小的模型。
但是该标准需要适用于模型的共同点,即基于统计数据的“明显”选择,该统计数据衡量模型与数据的拟合程度。
一个例子是用于预测一组新的观测值的平方误差总和,这些观测值不包括在模型拟合中(基于“好的”模型应该重现它应该描述的数据的想法)。因此,对于每个模型,您可以做的是:
1)将您的数据随机分成两部分,一个足够大的“模型部分”用于您的模型,一个“测试”部分用于检查预测(如果模型是一个好的模型,哪个特定的分区应该无关紧要)。“模型”集通常比“测试”集大(至少大 10 倍,具体取决于您拥有多少数据)
2)将模型拟合到“模型数据”,然后用它来预测“测试”数据。
3) 计算“测试”数据中预测的误差平方和。
4)根据您对数据的需要重复 1-3 次(以防万一您进行了“坏”或“不幸”分区),并取步骤 3 中误差平方和的平均值)。
似乎您已经定义了一类您愿意考虑的替代模型。
附带说明:您用于选择模型的任何程序都应进入步骤 1,包括“自动”模型选择程序。这样,您就可以正确解释自动过程所做的“多重比较”。不幸的是,您需要另一种选择(也许一种是“向前选择”,一种是“向前逐步”,一种是“向后选择”,等等)。为了“保持公平”,您可以为所有模型保留相同的分区集。