我在一家初创公司/中型公司工作,我担心我们可能过度设计我们的一种产品。
从本质上讲,我们将使用来自车辆和用户的实时坐标,并对这些传入数据执行分析和机器学习。当我们尝试预测与历史数据和静态路径匹配的实体的 ETA 时,此处理可能会相当密集。
他们想要采取的方法是使用最新和最强大的技术堆栈,即 Hadoop、Storm 等来处理这些坐标。问题是团队中没有人实施过这样的系统,并且只有在最后一个月左右的时间才能熟练掌握它。
我认为更安全的方法是在基于事件的系统中使用 NoSQL 存储(例如“Azure 表存储”)以在更短的时间内获得相同的结果。对我来说,这是敏捷方法,因为这是我们熟悉的系统。然后,如果需求允许,我们可以考虑在未来实施 Hadoop。
我没有在这个领域做大量的研究,所以很感激你的意见。
问题:
- 有多少跟踪实体(每 10 秒发送一次坐标)将保证 Hadoop?
- 最初从“Azure 表存储”等更简单的方法开始,然后在稍后使用 Hadoop 是否容易?
- 如果你必须估计,你认为一个由 3 名开发人员组成的团队需要多长时间来实现一个基本的 Hadoop/Storm 系统?
- Hadoop 是否有必要从一开始就进行投资,因为我们将很快产生重大成本?
我知道这些都是模糊的问题,但我想确保我们不会在最后期限到来时投入不必要的资源。