当数据不是新广告/社交媒体/零售时尚的一部分时,声称拥有大数据经验是否合乎道德?

数据挖掘 大数据 术语
2022-03-13 00:53:07

显然,大多数雇主在雇用数据科学家时,更喜欢大数据和/或数据科学方面的经验。但是人们可以有把握地假设他们会承认是经验吗?

假设有人经常在通常会生成大量数据的计算集群上启动软件。我不确定对于数据科学而言,这些数据的最佳衡量标准是什么。我将其称为一两千行,每行 200k 或 300k 点……当然低于 500k。然后对于每个点,我们称之为 25 或 30 个值。这相当于 30 或 40 gig 的数据。300 或 400 次,您就可以称其为研究 - 每年可能进行一到两次研究。我的印象是,这比谷歌或 Facebook 的数据科学家习惯的要小得多,但对于我的家庭计算系统来说,它肯定太大了。

如果有人多年来一直在做这个工作(这家公司的一些人在数据科学出现之前/社交媒体存在之前就一直在做这件事),那么他们声称拥有大数据经验是否公平?根据这个答案,重要的不是数据量,而是需要对数据做些什么——这是普遍接受的观点吗?

对于它的价值,处理这些数据需要使用一些专有语言、shell 脚本和大量 Python 来操作/清理数据。一点点R,但那是最近的事情。它涉及大量数据可视化、得出结论以及向管理层/令人信服的决策者展示。其中一些涉及趋势确定、外推和数据集之间的比较,这些数据集之间并没有直接相关,所以对我来说这听起来像是数据科学。但我将是第一个承认我对当前数据科学的了解有限的人。

...如果你能告诉我这是一个复活节彩蛋还是这个网站目前的实际答案总数,那么加分: 1337

编辑:

我会尽力澄清。数据科学雇主认为大数据/数据科学方面的经验是什么?上述数据的大小是否符合使用它的经验?还是该领域的人们普遍接受它根本不是数据的大小,而是您需要对数据做什么?

1个回答

数据可以以各种方式变大。它可以是大的 N(观察)和小的 P(每个观察的变量),例如访问日志。它可以是大的 P 和小的 N,就像在生物统计学中,你有来自数十或数百人的数万个基因表达。或者它可以是 N 和 P,就像在 Facebook 数据中一样。通过规范化数据的每一个细节,数据也可以变得很大,这意味着您将能够创建一个实际代表简单数据的海量关系数据库模式。

各种大数据需要不同的方法,公司主要关心自己的大数据版本。这就是为什么答案不是非黑即白的。

为了回答您在标题中提出的问题,我认为声称拥有大数据经验是合乎道德的,只要您可以将其置于您遇到它的业务或领域的背景下,并且可以描述一些使用不同工具或技能集的情况比用于较小的玩具示例需要。