在给定数据集、聚类算法和黄金标准分区的情况下找到信息量最大的特征子集

计算科学 机器学习
2021-12-21 13:22:53

我有一个数据矩阵以及一个分区 ,每个索引代表数据集中的一行。假设一个任意的聚类算法,我想找到一个子集,表示的列的索引,这样只应用于由索引的列,一个的输出之间的信息 (VI) 平均变化n×mDkPnAF{1,,m}DAFn×|F|PA. 另一种说法是,我希望能够找到信息最多的子空间。DP

(指标是 VI 或者多次运行的统计数据是平均值并不一定重要。我正在寻找一个通用解决方案,但如果存在指定指标或聚类算法的解决方案,我会感兴趣的。)

试图通过蛮力建立信息值(归一化)变化的分布是不切实际的,因为的可能子集的数量是斯特林数(第二类)达到任何有趣的大小时,这显然会变得很可怕。{1,,m}S(m,2)m

1个回答

这个问题称为子集选择,现在通常通过适当的非光滑凸优化技术来解决。

最近两篇描述子集选择方法的论文是
http://users.cms.caltech.edu/~jtropp/reports/Tro04-Just-Relax-TR.pdf
http://automatica.dei.unipd.it/public/Schenato/ PSC/2010_2011/gruppo4-Building_termo_identification/Bibliografia%20Casuale/Sensor%20Selection%20via%20Convex%20Optimization.pdf
但这只是冰山一角。