我对机器学习有点陌生,并且已经学会了使用 python 和各种包应用许多基本的回归和分类方法。然而,接近这个问题让我很难过。为了说明这个问题,我创建了一个虚构的场景,其中辅导员想要预测学生在纪律处分后的考试成绩。假设他们有可用的数据,如下面的模型:
列定义:
学生 - 学生身份 #
性别 - 男/女
年龄 - 当前年龄
运动员 - 学生参加的运动(0-无,1-篮球,2-足球,3-足球)
在线 - 学生在线上课(0-否, 1-是)
Before_Disciplinary_Action_Scores - 他们在纪律之前的最后 n 个测试分数的序列(按日期顺序)
Disciplinary_Action - 采取行动顾问(0-无,1-指定导师,2-监护人会议,3-学习计划,4-不合格比赛)
After_Disciplinary_Action_Scores - 纪律后他们下一个 n 测试分数的序列(按日期顺序)
假设虚构的学校系统非常大,总共有大约 80k 条记录。所有学生在纪律处分之前/之后总共有 12 个测试分数,但测试分数的数量会根据给予纪律处分的时间而有所不同。为简单起见,您可以假设每周给出一门课程的分数。
我可以计算之前/之后的平均分数并创建一个相当好的分类模型,但我想更进一步并预测学科后分数。
我尝试使用 Prophet 和 LSTM 模型从时间序列方法预测结果不佳的后续分数,并且分数的不同数量使其变得困难。我可以看到围绕 Athlete、Transfer 和 Online 的功能是重要的组件,我尝试将它们添加为回归量,但这也失败了。我感谢您提供的任何指导。
