数据挖掘 - 输入可变长度分类问题 - 吾爱随笔录

数据挖掘机器学习分类时间序列特征工程监督学习

2022-02-17 00:24:07

我有一个带有离散标签的患者信息数据集（标签是特定疾病的阶段），需要预测（基本上是分类问题）。

数据集如下所示：

患者#|就诊#|与患者和就诊相关的其他医学特征|标签（疾病阶段）

因此，我有兴趣使用患者过去的就诊数据来预测当前的疾病阶段。但是，问题是所有患者的就诊次数都不相同。所以，我不能只附加过去的访问信息来预测未来的访问标签，如下所示：

concat(Patient #n 1st visit (X = all input features)|label of this visit| Patient #n 2nd visit (X = all input features)) 然后尝试使用之前的访问信息预测第二次访问的标签。

在上述问题中，就诊次数=1，但我对每个患者的就诊次数是不同的。我该如何解决这个问题？

2个回答

目标是预测一名患者的当前阶段，因此对于分类部分，您必须为每位患者提供一个实例。所以问题是如何将每次访问重复的特征转换为固定数量的特征。

标准选项是使用专业知识来设计功能。例如，可能有一些特性只在某个时间点相关，以后不再相关，所以对于这些你可以保留最新的值。可能有一些特征随时间的演变是显着的，因此例如过去 N 个月的平均增长可能是有意义的。这个想法是将任意数量的访问“总结”成固定数量的特征。

一个更高级的选择是“矢量化”你的特征，即使用一些无监督的深度学习方法生成某种嵌入（但这不是我的专业领域）。

对于患者 i 的访问 t，我会预测。所以我只会回顾病人之前的访问。 $y_{it} = f(x_{it-1})$

或者，您可以在过去的访问中使用窗口函数，您可以保留平均值或最大值 x 等。

其它你可能感兴趣的问题