计算科学 - 在给定数据集、聚类算法和黄金标准分区的情况下找到信息量最大的特征子集 - 吾爱随笔录

我有一个数据矩阵以及一个由分区，每个索引代表数据集中的一行。假设一个任意的聚类算法，我想找到一个子集的，表示的列的索引，这样只应用于由索引的列，一个和的输出之间的信息 (VI) 平均变化 $n \times m$ $\mathbf{D}$ $k$ $P$ $n$ $A$ $F$ $\{1,\ldots, m\}$ $D$ $A$ $F$ $n \times |F|$ $P$ $A$ . 另一种说法是，我希望能够找到对信息最多的子空间。 $\mathbf{D}$ $P$

（指标是 VI 或者多次运行的统计数据是平均值并不一定重要。我正在寻找一个通用解决方案，但如果存在指定指标或聚类算法的解决方案，我会感兴趣的。）

试图通过蛮力建立信息值（归一化）变化的分布是不切实际的，因为的可能子集的数量是斯特林数（第二类）达到任何有趣的大小时，这显然会变得很可怕。 $\{1,\ldots, m\}$ $S(m, 2)$ $m$