输入可变长度分类问题

数据挖掘 机器学习 分类 时间序列 特征工程 监督学习
2022-02-17 00:24:07

我有一个带有离散标签的患者信息数据集(标签是特定疾病的阶段),需要预测(基本上是分类问题)。

数据集如下所示:

患者#|就诊#|与患者和就诊相关的其他医学特征|标签(疾病阶段)

因此,我有兴趣使用患者过去的就诊数据来预测当前的疾病阶段。但是,问题是所有患者的就诊次数都不相同。所以,我不能只附加过去的访问信息来预测未来的访问标签,如下所示:

concat(Patient #n 1st visit (X = all input features)|label of this visit| Patient #n 2nd visit (X = all input features)) 然后尝试使用之前的访问信息预测第二次访问的标签。

在上述问题中,就诊次数=1,但我对每个患者的就诊次数是不同的。我该如何解决这个问题?

2个回答

目标是预测一名患者的当前阶段,因此对于分类部分,您必须为每位患者提供一个实例。所以问题是如何将每次访问重复的特征转换为固定数量的特征。

标准选项是使用专业知识来设计功能。例如,可能有一些特性只在某个时间点相关,以后不再相关,所以对于这些你可以保留最新的值。可能有一些特征随时间的演变是显着的,因此例如过去 N 个月的平均增长可能是有意义的。这个想法是将任意数量的访问“总结”成固定数量的特征。

一个更高级的选择是“矢量化”你的特征,即使用一些无监督的深度学习方法生成某种嵌入(但这不是我的专业领域)。

对于患者 i 的访问 t,我会预测所以我只会回顾病人之前的访问。yit=f(xit1)

或者,您可以在过去的访问中使用窗口函数,您可以保留平均值或最大值 x 等。