数据挖掘 - 无法做出准确的预测？ - 吾爱随笔录

无法做出准确的预测？

数据挖掘机器学习深度学习预言预测

2022-03-02 13:56:40

我有一个糖尿病患者数据集，我正在尝试预测下一个血糖水平。我在下面附上了一张图片，该 csv 文件中有大约 1600 条记录，其中包含 10 位患者的数据。每个患者由 Id 列唯一标识，Glucose_t-1 表示患者在当前读数 (Glucose_t) 之前的葡萄糖值，这同样适用于 Glucose_t-2 和 Glucose_t-3。同样适用于 Insulin_t-1、Insulin_t-2。事件列是血糖值的当前读数下降到的血糖事件。例如，

血糖值 <= 70 然后 0,
70<血糖值<=180则1，
血糖值 > 180 然后 2。

我应用了不同的回归算法，如 Logisitic 回归、随机森林回归等，但我无法准确预测 Glucose_t 值。精度达到 0.008 .. 非常令人沮丧 :(。请任何帮助提高精度的帮助将不胜感激。谢谢。

1个回答

这是一个相当复杂的问题，设计可能有更好的选择（我在想可能更具体到时间序列）......

然而在此之前有一个更明显的问题需要解决：您似乎正在计算“Glucose_t”数值的准确性，对吧？如果是，这是不正确的，这将解释你可怕的结果：

准确率是分类任务的评估指标，不是回归任务：准确率只是检查每个实例的预测值（应该是分类值）是否与黄金真实值相同，然后除以正确的数量案件总数。当然，在数字的情况下很难预测准确的真实值：如果真实值为 183，但算法预测为 184，那么即使非常接近，准确性也会将其视为不正确。这可以解释为什么您的准确性非常低。
典型的回归评估措施是平均绝对误差和均方误差。这些度量（及其变体）旨在计算预测数值与真实值的距离。如果您使用这些，请记住这是一个错误分数，因此值越低越好。
如果您想使用准确性，则将其用于您的“事件”值（我假设它源自您的“葡萄糖_t”预测？）是有意义的：在这种情况下，您有 3 个类（分类值），我敢打赌准确度会好很多。请注意，准确性可能会因类别不平衡而有所偏差，因此请不要忘记检查混淆矩阵。

其它你可能感兴趣的问题

上一篇评估排名结果的指标是什么？下一篇机器学习 - 如何根据过去的特征预测一组固定字段