我有一个数据矩阵以及一个由分区 ,每个索引代表数据集中的一行。假设一个任意的聚类算法,我想找到一个子集的,表示的列的索引,这样只应用于由索引的列,一个和的输出之间的信息 (VI) 平均变化. 另一种说法是,我希望能够找到对信息最多的子空间。
(指标是 VI 或者多次运行的统计数据是平均值并不一定重要。我正在寻找一个通用解决方案,但如果存在指定指标或聚类算法的解决方案,我会感兴趣的。)
试图通过蛮力建立信息值(归一化)变化的分布是不切实际的,因为的可能子集的数量是斯特林数(第二类)达到任何有趣的大小时,这显然会变得很可怕。