如果(是观察数,是维数),在回归中使用具有多个级别的分类预测变量是否总是可以的?这里也相当高,因为分类预测变量有很多级别,尽管远远超过。或者,还有更好的方法?
这是我不久前在网上阅读的数据科学家面试问题之一,但经过深思熟虑后,我仍然无法弄清楚什么是一个好的答案。
任何想法/参考将不胜感激。
如果(是观察数,是维数),在回归中使用具有多个级别的分类预测变量是否总是可以的?这里也相当高,因为分类预测变量有很多级别,尽管远远超过。或者,还有更好的方法?
这是我不久前在网上阅读的数据科学家面试问题之一,但经过深思熟虑后,我仍然无法弄清楚什么是一个好的答案。
任何想法/参考将不胜感激。
没有什么是“总是好的”,因为总是有例外。例如,当您的预测器的一个或多个类别完美地预测结果时,logit 和 probit 模型就会遇到麻烦。无论您的样本量有多大,这都很容易发生。
另一种情况是,当 n 很大但一个或多个类别中的观察数量非常少时,您的模型会有些问题。当您的兴趣集中在这些小类别上时,这将是有问题的。
我不认为有一个明确的答案。如果没有纯粹的统计问题(参见 Maarten Buis 的回答),那么这是一个更具理论性的问题。
我的看法是,虽然许多属性自然是多类别的,但使用所有这些数据并不总是合乎逻辑的理由。它会使模型变得繁琐,并且可能会弄巧成拙。假设我们有一个具有个级别如果是一个控制变量,那么按原样使用它可能不会有很大的不同(除了令人眼花缭乱)。但是,如果是一种理论上有趣的效应,则可能需要进行一些缩减。我会详细说明。使用作为解释变量意味着我们有类别,每个类别都有一个系数,该系数是它与参考类别之间的差异。如果我们决心了解世界国家和日本之间的差异,那就更好了,但这几乎没有传达其他类别与其自身之间关系的信息。当我们有兴趣测量与,有很多类别使得解释很烦人。因此,通常谨慎地考虑合并类别背后是否存在逻辑。也许东亚国家可以一起走,也许欧盟国家(也许不能)。也许新客户很有趣,将他们与各种资历类别进行比较并不像非新客户那样有趣。很多时候,将类别聚集在一起会牺牲特异性,但会变得清晰——这不是一件坏事。