假设我有一个包含 1000 列和 3M 行的数据集。我知道这肯定会遭受维度诅咒,我需要减少维度的数量。但是我应该在多大程度上减少尺寸?
根据我的理解,随着每个额外的维度,数据不会太稀疏所需的数据点数量呈指数增长。
那么我怎么知道对于不同数量的列,数据点的黄金数量是多少?假设我有能力收集无限量的数据,但每个数据点的相关成本仍然很小,我应该收集多少?
我正在使用这些幻灯片来理解这个概念: http ://www.dataminingbook.info/pmwiki.php/Main/BookPathUploads?action=download&upname=slides-chap6.pdf
