我们什么时候应该使用 Hadley Whickham 的整理数据原则,什么时候应该避免使用它?

数据挖掘 机器学习 Python 数据集 数据 数据清理
2022-03-08 01:24:27

在过去的 6 个月里,我一直在学习数据科学,但是我刚刚在Jean-Nicholas Hould一篇文章中遇到Hadley Wickham的整理数据原则

这完全改变了我对数据处理方式的看法。我不仅应该清理数据,而且还应该正确格式化数据。仔细想想,这似乎很明显,但这不是重点。

我决定开始将这些原则应用到我的数据清理工作流程中,但是,我想知道是否有时拥有整洁的数据并不理想?

我们什么时候不想“整理我们的数据”?

理想情况下,我们什么时候应该使用 Tidy Data,什么时候应该避免它?

您对此的意见将不胜感激。

1个回答

一般来说,整洁的数据很棒……但它很快就会变得不合理的大。这就是为什么我通常会在过程中尽可能晚地尝试以整洁的格式重构我的数据的主要原因。

示例:想象一个包含个实例的数据集,具有列...... ,其中列表示基于多个方法/参数的某个值。整洁的版本将具有列...加上(作为值,..,),当然还有结果值。整洁的版本将包含实例,即对于每个实例,它重复特征次。如果很大,则数据集在内存中将非常大(并且也存储为文件)。Nfeature1featureXresult1resultYresult?feature1featureXmethodresult1resultsYresultN×YXYX

当然,当您有多个涉及各种参数的步骤时,情况会变得更糟,每次乘以实例并不总是可行的。