无法做出准确的预测?

数据挖掘 机器学习 深度学习 预言 预测
2022-03-02 13:56:40

我有一个糖尿病患者数据集,我正在尝试预测下一个血糖水平。我在下面附上了一张图片,该 csv 文件中有大约 1600 条记录,其中包含 10 位患者的数据。每个患者由 Id 列唯一标识,Glucose_t-1 表示患者在当前读数 (Glucose_t) 之前的葡萄糖值,这同样适用于 Glucose_t-2 和 Glucose_t-3。同样适用于 Insulin_t-1、Insulin_t-2。事件列是血糖值的当前读数下降到的血糖事件。例如,

  • 血糖值 <= 70 然后 0,
  • 70<血糖值<=180则1,
  • 血糖值 > 180 然后 2。

我应用了不同的回归算法,如 Logisitic 回归、随机森林回归等,但我无法准确预测 Glucose_t 值。精度达到 0.008 .. 非常令人沮丧 :(。请任何帮助提高精度的帮助将不胜感激。谢谢。这是我在 csv 文件中准备的格式

1个回答

这是一个相当复杂的问题,设计可能有更好的选择(我在想可能更具体到时间序列)......

然而在此之前有一个更明显的问题需要解决:您似乎正在计算“Glucose_t”数值的准确性,对吧?如果是,这是不正确的,这将解释你可怕的结果:

  • 准确率是分类任务的评估指标,不是回归任务:准确率只是检查每个实例的预测值(应该是分类值)是否与黄金真实值相同,然后除以正确的数量案件总数。当然,在数字的情况下很难预测准确的真实值:如果真实值为 183,但算法预测为 184,那么即使非常接近,准确性也会将其视为不正确。这可以解释为什么您的准确性非常低。
  • 典型的回归评估措施是平均绝对误差均方误差这些度量(及其变体)旨在计算预测数值与真实值的距离。如果您使用这些,请记住这是一个错误分数,因此值越低越好。
  • 如果您想使用准确性,则将其用于您的“事件”值(我假设它源自您的“葡萄糖_t”预测?)是有意义的:在这种情况下,您有 3 个类(分类值),我敢打赌准确度会好很多。请注意,准确性可能会因类别不平衡而有所偏差,因此请不要忘记检查混淆矩阵。