我们的数据是“大数据”吗(启动)

数据挖掘 机器学习 数据挖掘 大数据 统计数据 apache-hadoop
2021-09-17 02:34:22

我在一家初创公司/中型公司工作,我担心我们可能过度设计我们的一种产品。

从本质上讲,我们将使用来自车辆和用户的实时坐标,并对这些传入数据执行分析和机器学习。当我们尝试预测与历史数据和静态路径匹配的实体的 ETA 时,此处理可能会相当密集。

他们想要采取的方法是使用最新和最强大的技术堆栈,即 Hadoop、Storm 等来处理这些坐标。问题是团队中没有人实施过这样的系统,并且只有在最后一个月左右的时间才能熟练掌握它。

我认为更安全的方法是在基于事件的系统中使用 NoSQL 存储(例如“Azure 表存储”)以在更短的时间内获得相同的结果。对我来说,这是敏捷方法,因为这是我们熟悉的系统。然后,如果需求允许,我们可以考虑在未来实施 Hadoop。

我没有在这个领域做大量的研究,所以很感激你的意见。

问题:

  • 有多少跟踪实体(每 10 秒发送一次坐标)将保证 Hadoop?
  • 最初从“Azure 表存储”等更简单的方法开始,然后在稍后使用 Hadoop 是否容易?
  • 如果你必须估计,你认为一个由 3 名开发人员组成的团队需要多长时间来实现一个基本的 Hadoop/Storm 系统?
  • Hadoop 是否有必要从一开始就进行投资,因为我们将很快产生重大成本?

我知道这些都是模糊的问题,但我想确保我们不会在最后期限到来时投入不必要的资源。

2个回答

是的,这是一个多长的字符串问题。我认为提防过度设计是很好的,同时还要确保你设计的地方是你认为你会在一年内到达的地方。

首先,我建议您区分处理和存储。Storm 是一个(流)处理框架;NoSQL 数据库是一种存储范例。这些不是替代品。Hadoop 生态系统有 HBase for NoSQL;我怀疑 Azure 有某种流处理故事。

您的两种选择的更大区别在于使用云提供商的生态系统与 Hadoop。Azure、AWS 或 GCE 的优势在于,这些服务针对彼此集成进行了优化,包括计费、机器管理等。除了 Azure,你不能在任何地方运行 Azure 的东西。Hadoop 需要更多的工作来集成,因为它实际上是有时松散相关项目的联盟。您正在投资一个发行版和一个运行该发行版的地方。但是,您获得的锁定更少,可能更容易获得人才,以及更广泛的工具选择。

Azure 之路也是一个“大数据”解决方案,因为它具有很多您想要的大数据可扩展性属性,以及复杂性。我觉得这不是一条更容易的路线。您是否需要投资这种规模的分布式/云计算?鉴于您的物联网主题用例,我相信您将需要尽快(如果不是现在),所以是的。您不是在谈论千兆字节,而是在第一年就达到了许多 TB。

我会给一个新团队 6 到 12 个月的时间来完全生产基于这些平台中的任何一个的东西。这当然可以作为 POC 上演,然后是更精细的工程。

首先,了解并解决问题关于可管理的数据。收集有关如何组织数据以及困难在哪里的经验。尝试确定可以并行的点。

其次,必要时并行化和扩大规模。

不要倒着做,流行的错误。使用错误的工具解决错误的问题会失败,使用大数据。