是否可以使用随机森林(例如基于 gini 杂质)或其他模型的特征重要性来确定我可以使用哪些特征来对数据集的行进行均匀分组?
例如,假设我有一个包含 N 行和 p 列的数据集(其中一列用作我的训练任务中的标签)。我对模型进行训练,然后对我的特征的重要性进行排名。只有 5 个特征比“人为”添加到我的数据集中的随机特征更重要(这用于了解某些特征是否没有为我的模型添加任何“可预测的能力”)。我可以假设使用这 5 个特征作为维度来对我的行进行分组,提供“我的输出的同质组”吗?
为我的问题的混乱描述道歉。而不是一个严格的答案,我想指出正确的方向来对此进行一些研究。目前,这完全基于我的直觉,我可能完全越野。
是否有 ML/Stats/etc 的任何领域?这是在哪里完成的?
例如,潜在类分析似乎与此类似,我错了吗?
例子:
我想预测一个人一个月喝超过 0.5 升啤酒的概率。我有人口中每个人的信息,例如:年龄、性别、地理区域(美国州)、身高、体重等。
我的输出是
- 0 = 平均(每瓶啤酒升数)< 0.5
- 1 = 平均(每瓶啤酒升数)>= 0.5
我训练了一个模型(假设是一个随机森林),特征重要性等级表明“年龄”、“体重”和“身高”在预测啤酒的消费量方面很有用,而其他特征对预测性能的影响不大(或者至少那些被列为不太重要的)。
我的假设是,如果我对人群进行分组,如果使用三个“重要”特征,这些群体将具有一些相似的特征,因此有一个潜在变量将这些个体组合在一起。
团体:
1) 年龄:[21, 25],体重(Kg):[70, 75],身高(cm):[170, 175]
2) 年龄:[21, 25],体重(Kg):[70, 75],身高(cm):[175, 180]
3)等。