估计看板任务完成时间的生存分析

数据挖掘 机器学习 r 生存分析 时间
2022-02-27 13:05:34

我正在解决一个问题,以估计看板(项目管理工具)中的任务完成时间。在进行 EDA 时,我查看了已完成或已取消的任务。在这种情况下,我将完成时间定义为从任务创建到完成/取消所用的时间。

我注意到我遇到了该定义的问题。我忽略了尚未完成的任务。如果我们将“task = done”视为“event = 1”,这就像在生存分析中丢弃“event = 0”的观察结果,给我们一个有偏差的结果。

  • 我该如何处理?
  • 我还想获得一些关于我应该如何处理“完成”与“取消”的意见?
1个回答

这是一个准确定义您要解决的问题的问题,并且可能有很多变体:

  • 如果目标真的是估计“完成时间”,那么恕我直言,您应该只使用已完成的任务,因为其他任务尚未“完成”。请注意,在这种情况下,您计算的是实际花费在任务上的时间。
  • 如果目标是估计“解决任务的时间”,无论是通过完成还是取消它,那么您正在计算任务初始化时间与完成或取消时间之间的持续时间。请注意,在这种情况下,持续时间可能包括花在其他任务上的时间。

在上述两种情况下,我都没有看到任何适当的方法来包含仍待处理的任务。对于这些情况,我的想法是计算不同的统计数据,例如“X 天后完成任务的比率”。