数据挖掘 - 2018年学习Hadoop有什么意义吗？ - 吾爱随笔录

数据挖掘阿帕奇火花 apache-hadoop

2021-10-10 14:36:00

我是一名数据分析师/科学家，主要使用 Python 开源堆栈，即 Pandas、scikit-learn、matplotlib、seaborn 等。我想扩展我的工具箱并学习分布式计算框架。

Hadoop 在 2013-2014 年左右引起了很多争论。根据我对该主题的有限了解，Apache Spark 在各个方面都对 Hadoop 进行了多方面的改进。

那么，除了需要维护遗留 Hadoop 应用程序的明显情况外，到目前为止，还有什么理由更喜欢 Hadoop 而不是 Apache Spark？

1个回答

在这个时候，如果我必须从头开始一个项目并且必须在 Hadoop 和 Spark 之间做出选择，我肯定会选择 Spark 而不是 Hadoop。有几个原因：

但是，我仍然认为在尝试学习 Spark 之前学习 Hadoop 是有价值的，即使它处于高水平。这些是一些原因：

您可能会遇到一些基于 Hadoop 技术的遗留应用程序/系统
它简要介绍了 Spark 中使用的一些概念
Spark 有时会与 Hadoop 生态系统中的某些技术结合使用，例如 Hive 和 HDFS（Spark 不包含存储数据的方式，但它可以从多个来源获取数据，包括 HDFS，以及具有基于 HDFS 的数据存储的 Spark 集群是通常的组合）。

其它你可能感兴趣的问题