测量分类因素对多组二项式结果的影响

机器算法验证 r 回归 方差分析 二项分布 多层次分析
2022-04-03 21:42:16

当一支球队领先(领先)或落后(落后)少于 8 分以及他们是主场还是客场时,我想对篮球的投篮效率进行一些分析。以下是一些数据示例:

Ray Allen   HOME    BEHIND  59.4%   134
Ray Allen   HOME    AHEAD   57.13%  132
Ray Allen   AWAY    BEHIND  49.1%   166
Ray Allen   AWAY    AHEAD   48.03%  126
Jason Terry AWAY    BEHIND  56.6%   242
Jason Terry HOME    BEHIND  52.0%   193
Jason Terry AWAY    AHEAD   50.05%  198
Jason Terry HOME    AHEAD   48.73%  207
Jamal Crawford  AWAY    AHEAD   51.65%  82
Jamal Crawford  HOME    AHEAD   42.50%  178
Jamal Crawford  AWAY    BEHIND  35.5%   129
Jamal Crawford  HOME    BEHIND  33.4%   118
Kevin Durant    HOME    BEHIND  48.6%   222
Kevin Durant    HOME    AHEAD   44.05%  248
Kevin Durant    AWAY    BEHIND  41.4%   325
Kevin Durant    AWAY    AHEAD   40.07%  213

第 4 列是 FG%(即投篮命中率),第 5 列是投篮次数(即尝试次数)。

即使有这 4 名球员(数据集中大约有 200 名),您也可以看到球员之间的平均 FG% 存在差异,并且对于每个球员,他们是否“更好”并没有一致的模式在家里或外地或前方或后方。因此,据我所知,组间和组内存在很多差异。

我考虑过使用 lmer,但我不知道如何解决这个问题,因为如果我只使用 FG% 作为结果,我会丢失拍摄多少张照片的信息。最终,我想把它放到 BUGS 中,但我认为现在可能有更直接的方法,因为我还没有完全准备好。

我应该补充一点,我真正追求的是一种方法来确定玩家在其中一种情况下是否“真的”更好,或者仅仅是由于小样本量的噪声/变化而导致的明显差异。

感谢您的任何建议。

2个回答

为了规避 200 名玩家问题,您可以拟合您选择的任何模型(logit、二项式……),而无需像这样的玩家变量,但在离散混合框架内。您必须正确处理数据(例如,您要确保将单个玩家的所有统计数据汇总在一起,并且您必须确定混合中的最佳聚类数),但拟合的混合模型将将玩家分组,这应该反映表现的差异,或者更确切地说,条件(主场和领先)如何影响表现的差异。使用 R 包 flexmix,这非常容易和快速。

基于相同的想法,您也可以在转换后的数据上运行无监督聚类算法(k-means、高斯混合、自组织图):每个玩家都有一个包含 8 个值的向量在这种情况下,每个玩家都属于具有相似特征的玩家集群,您可以检查集群之间的差异是否显着。(ratehome,lead,Nhome,lead,ratehome,behind,Nhome,behind,...)

我认为您可以使用球员、领先/落后、主场/客场、成功百分比和在这些条件下的投篮次数作为可能的协变量来拟合逻辑回归模型。那么球员的难点是你有200多。我认为特定条件下的成功率可以作为球员的替代品,因为球员和他过去在条件下的表现应该与结果高度相关。要预测单个玩家,您只需使用该玩家的其他协变量。