我开始学习数据科学。我有样本数据,包括不同的特征在几个人身上运行,每个人 n 次。这些功能代表了参与者对某些语言的流利程度。它们包括每个句子的正确单词数,平均总正确单词数,平均说话时长,平均每轮停顿次数等。因此对于正确单词数等特征,越高分数越高,并且有一个特点,比如平均停顿,分数越低越好。
我想最后决定哪些特征更重要、更值得保留,哪些特征可以忽略。
我阅读了加权综合分数,据我所知,主要步骤是计算系数(权重)。但我不明白应该如何计算这些系数。正如我在一些例子中看到的那样,有些案例是基于分析直觉的,但它可能非常主观。