我有问题陈述来预测根据多个功能解决任务的概率,例如创建任务的时间、完成任务所需的时间等 请找到附加的虚拟片段
task_id date_time_open time_needed day_created time_created status
aa 12/09/2019 20 hrs Tuesday 3 pm done
cc 17/10/2019 4 hrs Friday 10 pm not_done
我知道我可以运行分类模型来识别类别。但是,当我向其中添加时间维度时,事情变得复杂了,因为数据集现在获得了一个对状态有很大影响的附加功能
假设在晚上 7 点扫描任务,并在晚上 7 点添加了一个新功能
task_id date_time_tsk_open time_needed day_created time_created status_7pm status
aa 12/09/2019 20 hrs tuesday 3pm done done
cc 17/10/2019 4 hrs friday 10 pm done not_done
dd 19/10/2019 6 hrs friday 2 pm done done
ff 19/10/2019 9 hrs Monday 4 pm not_done not_done
以 1 小时的固定间隔再次扫描任务 ID,并向数据添加新功能
task_id date_time_tsk_open time_needed day_created time_created status_8pm status
aa 12/09/2019 20 hrs tuesday 3pm done done
cc 17/10/2019 4 hrs friday 10 pm not_done not_done
dd 19/10/2019 6 hrs friday 2 pm done done
ff 19/10/2019 9 hrs Monday 4 pm not_done not_done
status==resolved/un_resolved的最终预测在我的理解中应该基于status_7pm和status_8pm等特征。
训练这种分类模型的数据结构应该如何分别在晚上 9 点为样本任务 ff 生成预测
task_id date_time_tsk_open time_needed day_created time_created status_7pm status_8pm status
ff 19/10/2019 9 hrs Monday 4 pm not_done not_done not_done
我假设分类模型应该在所有 status_1、status_2 ....status_8pm 上进行训练以对状态进行分类。或者,一旦模型每小时获得一个新的列更新状态,它是否会每次在内存中进行训练