我的数据分析和建模角色很少,而且总是“不幸”地工作,我们称之为坏数据。想想 10 000 的默认概率 1,或者每天有 3 个售出产品的销售时间序列,当然偶尔会跳到 10 或下降到 0,当然还有一定的季节性成分。
您怎么看,甚至可以对这些稀疏数据进行适当的分析吗?如果是,您会推荐什么技术?
我的数据分析和建模角色很少,而且总是“不幸”地工作,我们称之为坏数据。想想 10 000 的默认概率 1,或者每天有 3 个售出产品的销售时间序列,当然偶尔会跳到 10 或下降到 0,当然还有一定的季节性成分。
您怎么看,甚至可以对这些稀疏数据进行适当的分析吗?如果是,您会推荐什么技术?
相当粗略的问题,但仍然可以回答。答案是“是的”,稀疏数据可以做很多事情。此回复远非“完整”,但会在“DIY”霰弹枪列表中查看一些选项。换句话说,由分析师决定哪种选择可能适合追求。
首先要考虑的是确定稀疏性发生在哪里,例如,它是在特征中的一个大的、复杂的、组合的可能性集合中,还是它与目标或因变量可能几乎没有观察到的响应有关,或两者兼而有之?
对于目标变量中的稀疏或罕见事件,例如,当对刺激的响应被记录为 0,1 或“是/否”并且响应率非常小时,一个常见的错误是使用逻辑回归对此建模。错误是这样的:众所周知,逻辑曲线不能很好地拟合其分布的尾部。这意味着对于稀疏或罕见的事件数据,逻辑回归将产生有偏差的结果。对于这个问题,通常推荐的“解决方案”是走出去获取更大的数据样本,或者,专门对那些对分析很重要且人口稀少的部分进行二次抽样。这是一个坏主意,至少有两个原因:第一,并不总是可以简单地“获取更多数据”,第二,即使可能,就时间和金钱而言,它可能会非常昂贵。更好的解决方案是可能的:
哈佛政治学家和统计方法学家 Gary King 讨论罕见事件分析... http://gking.harvard.edu/category/research-interests/methods/rare-events。
一维非线性色散波模型中极端事件的量化和预测... http://sandlab.mit.edu/Papers/14_PhysicaD.pdf
https://www.analyticsvidhya.com/blog/2014/01/logistic-regression-rare-event/
关于特征,需要区分出现在逻辑上不可能的组合的结构零和可能出现特征组合的稀疏性,只是没有足够的信息来填充表格中的特定单元格。考虑医疗保健或医院数据,其中从纯粹计算的角度来看,在对一组特征进行交叉分类时,男性患者的诊断代码为“怀孕”是可能的,但男性实际分娩是不可能的,即它被认为是结构性零。但是性和性别是不同的结构。所以,直到跨性别患者(例如,女性对男性性别)有孩子,这将仍然是结构性的零。
如前所述,人口稀少的特征是不同的,需要特殊的工具来促进对目标变量的分析。以下是处理稀疏特征的“洗衣清单”或猎枪组选项。其中大部分是通过简单地浏览关键字“从稀疏数据推断”来收集的。从列表中仔细选择:
采用贝叶斯建模框架。例如,Gelman 和 Hill 在他们的书Data Analysis Using Regression and Multilevel/Hierarchical Models的第 13 章中指出,可以分析样本大小为 1 的特征。常客可能会反对这种说法。MCMC 采样为稀疏分布的分类特征提供了一种解决方法,因为在采样迭代中汇集数据会构建关于后验特征的分布,即使在样本大小为 1 的情况下也是如此。
Gelman 在他的博客中也讨论了稀疏性…… http://andrewgelman.com/2013/12/16/whither-the-bet-on-sparsity-principle-in-a-nonsparse-world/。
Alan Agresti,对于二项式比例的区间估计,近似优于“精确”... http://www.stat.ufl.edu/~aa/articles/agresti_coull_1998.pdf
罕见事件的数据挖掘... http://www-users.cs.umn.edu/~aleks/pakdd04_tutorial.pdf
对罕见事件数据建模的不同方法的比较... http://lib.ugent.be/fulltxt/RUG01/002/163/708/RUG01-002163708_2014_0001_AC.pdf
稀疏生物时间序列数据的统计推断方法 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3114728/
稀疏和分层潜在结构的贝叶斯非参数模型和推理... http://cs.stanford.edu/people/davidknowles/daknowles_thesis.pdf
统计推断:稀疏数据上的 n-gram 模型 .. http://www.sims.berkeley.edu/~jhenke/Tdm/TDM-Ch6.ppt
迷失在随机森林中:使用大数据研究罕见事件... http://journals.sagepub.com/doi/pdf/10.1177/2053951715604333
等等。
祝你好运。