集群 3D 数据阵列有什么好的做法吗?

数据挖掘 机器学习 Python 聚类 无监督学习
2022-03-10 15:16:18

所以我不确定哪个词最适合描述这些数据,可能“维度”是错误的,因为它可能用于具有 3 个特征的平面样本;

但我所说的 3D 数据是指[samples, timesteps, features]. 每个时间戳都有 2 个特征。

它看起来像[ [ [1,2], [3,4] ], [ [5,6], [7,8] ] ]一个 LSTM 输入。 [1,2]是一个时间步长,[[1,2],[3,4]]是一个样本。

因此,一种方法是将时间步展平并将它们制成一维数组。但是,有没有更好的方法可以以某种方式利用时间戳内的特征“分组”所进行的信息?

另外我该如何正确描述这个数据结构?

1个回答

鉴于所有聚类算法都假设数据是无序的,将数据重塑为某种 n*p 格式确实是合适的。如果要考虑位置,则必须将它们编码为附加特征(由于缩放和特征加权,这可能会很棘手)。

但不要将聚类视为黑匣子。您可能有一些特定的目标,并且充分准备数据是聚类的必要条件。考虑 k-means:它搜索最小二乘近似。以对这些特征进行最小二乘法有用的方式准备数据是您的工作。