稀疏数据的统计分析?

机器算法验证 数据集 罕见事件
2022-03-28 15:11:35

我的数据分析和建模角色很少,而且总是“不幸”地工作,我们称之为坏数据。想想 10 000 的默认概率 1,或者每天有 3 个售出产品的销售时间序列,当然偶尔会跳到 10 或下降到 0,当然还有一定的季节性成分。

您怎么看,甚至可以对这些稀疏数据进行适当的分析吗?如果是,您会推荐什么技术?

1个回答

相当粗略的问题,但仍然可以回答。答案是“是的”,稀疏数据可以做很多事情。此回复远非“完整”,但会在“DIY”霰弹枪列表中查看一些选项。换句话说,由分析师决定哪种选择可能适合追求。

首先要考虑的是确定稀疏性发生在哪里,例如,它是在特征中的一个大的、复杂的、组合的可能性集合中,还是它与目标或因变量可能几乎没有观察到的响应有关,或两者兼而有之?

对于目标变量中的稀疏或罕见事件,例如,当对刺激的响应被记录为 0,1 或“是/否”并且响应率非常小时,一个常见的错误是使用逻辑回归对此建模。错误是这样的:众所周知,逻辑曲线不能很好地拟合其分布的尾部。这意味着对于稀疏或罕见的事件数据,逻辑回归将产生有偏差的结果。对于这个问题,通常推荐的“解决方案”是走出去获取更大的数据样本,或者,专门对那些对分析很重要且人口稀少的部分进行二次抽样。这是一个坏主意,至少有两个原因:第一,并不总是可以简单地“获取更多数据”,第二,即使可能,就时间和金钱而言,它可能会非常昂贵。更好的解决方案是可能的:

关于特征,需要区分出现在逻辑上不可能的组合的结构零和可能出现特征组合的稀疏性,只是没有足够的信息来填充表格中的特定单元格。考虑医疗保健或医院数据,其中从纯粹计算的角度来看,在对一组特征进行交叉分类时,男性患者的诊断代码为“怀孕”是可能的,但男性实际分娩是不可能的,即它被认为是结构性零。但是性别是不同的结构。所以,直到跨性别患者(例如,女性对男性性别)有孩子,这将仍然是结构性的零。

如前所述,人口稀少的特征是不同的,需要特殊的工具来促进对目标变量的分析。以下是处理稀疏特征的“洗衣清单”或猎枪组选项。其中大部分是通过简单地浏览关键字“从稀疏数据推断”来收集的。从列表中仔细选择:

等等。

祝你好运。