哪些特征对于确定通过加权综合得分衡量的参与者的流利程度很重要?

数据挖掘 回归 数据分析 统计模型
2022-03-07 02:53:18

我开始学习数据科学。我有样本数据,包括不同的特征在几个人身上运行,每个人 n 次。这些功能代表了参与者对某些语言的流利程度。它们包括每个句子的正确单词数,平均总正确单词数,平均说话时长,平均每轮停顿次数等。因此对于正确单词数等特征,越高分数越高,并且有一个特点,比如平均停顿,分数越低越好。

我想最后决定哪些特征更重要、更值得保留,哪些特征可以忽略。

我阅读了加权综合分数,据我所知,主要步骤是计算系数(权重)。但我不明白应该如何计算这些系数。正如我在一些例子中看到的那样,有些案例是基于分析直觉的,但它可能非常主观。

2个回答

这是一个试探性的答案。

可以尝试首先确定每个特征的相对重要性(例如,通过因子分析主成分分析,..)

一旦更重要的特征被识别(或猜测),那么人们可以尝试将分数与这些特征组合。

  1. 简单地取平均值作为综合得分。
  2. 进行线性回归并将系数用作综合得分的权重。

可以借助多元回归分析确定显着决定流畅性的因素/特征。某些提议的功能可能对参与者的流利程度有轻微或微不足道的影响。这些可以从您提出的回归模型中删除,以进行一般预测建模。一些作者似乎将回归系数称为权重或 beta 权重。回归系数是一种独特的度量,反映了特定变量/因素对特定依赖度量的影响。