数据挖掘 - 我们的数据是“大数据”吗（启动） - 吾爱随笔录

我们的数据是“大数据”吗（启动）

数据挖掘机器学习数据挖掘大数据统计数据 apache-hadoop

2021-09-17 02:34:22

我在一家初创公司/中型公司工作，我担心我们可能过度设计我们的一种产品。

从本质上讲，我们将使用来自车辆和用户的实时坐标，并对这些传入数据执行分析和机器学习。当我们尝试预测与历史数据和静态路径匹配的实体的 ETA 时，此处理可能会相当密集。

他们想要采取的方法是使用最新和最强大的技术堆栈，即 Hadoop、Storm 等来处理这些坐标。问题是团队中没有人实施过这样的系统，并且只有在最后一个月左右的时间才能熟练掌握它。

我认为更安全的方法是在基于事件的系统中使用 NoSQL 存储（例如“Azure 表存储”）以在更短的时间内获得相同的结果。对我来说，这是敏捷方法，因为这是我们熟悉的系统。然后，如果需求允许，我们可以考虑在未来实施 Hadoop。

我没有在这个领域做大量的研究，所以很感激你的意见。

问题：

有多少跟踪实体（每 10 秒发送一次坐标）将保证 Hadoop？
最初从“Azure 表存储”等更简单的方法开始，然后在稍后使用 Hadoop 是否容易？
如果你必须估计，你认为一个由 3 名开发人员组成的团队需要多长时间来实现一个基本的 Hadoop/Storm 系统？
Hadoop 是否有必要从一开始就进行投资，因为我们将很快产生重大成本？

我知道这些都是模糊的问题，但我想确保我们不会在最后期限到来时投入不必要的资源。

2个回答

是的，这是一个多长的字符串问题。我认为提防过度设计是很好的，同时还要确保你设计的地方是你认为你会在一年内到达的地方。

首先，我建议您区分处理和存储。Storm 是一个（流）处理框架；NoSQL 数据库是一种存储范例。这些不是替代品。Hadoop 生态系统有 HBase for NoSQL；我怀疑 Azure 有某种流处理故事。

您的两种选择的更大区别在于使用云提供商的生态系统与 Hadoop。Azure、AWS 或 GCE 的优势在于，这些服务针对彼此集成进行了优化，包括计费、机器管理等。除了 Azure，你不能在任何地方运行 Azure 的东西。Hadoop 需要更多的工作来集成，因为它实际上是有时松散相关项目的联盟。您正在投资一个发行版和一个运行该发行版的地方。但是，您获得的锁定更少，可能更容易获得人才，以及更广泛的工具选择。

Azure 之路也是一个“大数据”解决方案，因为它具有很多您想要的大数据可扩展性属性，以及复杂性。我觉得这不是一条更容易的路线。您是否需要投资这种规模的分布式/云计算？鉴于您的物联网主题用例，我相信您将需要尽快（如果不是现在），所以是的。您不是在谈论千兆字节，而是在第一年就达到了许多 TB。

我会给一个新团队 6 到 12 个月的时间来完全生产基于这些平台中的任何一个的东西。这当然可以作为 POC 上演，然后是更精细的工程。

首先，了解并解决问题。关于可管理的数据。收集有关如何组织数据以及困难在哪里的经验。尝试确定可以并行的点。

其次，必要时并行化和扩大规模。

不要倒着做，流行的错误。使用错误的工具解决错误的问题会失败，使用大数据。

其它你可能感兴趣的问题

上一篇自然语言生成算法也能生成有效词吗？下一篇在分组后查找R data.table中列的计数和平均值