2018年学习Hadoop有什么意义吗?

数据挖掘 阿帕奇火花 apache-hadoop
2021-10-10 14:36:00

我是一名数据分析师/科学家,主要使用 Python 开源堆栈,即 Pandas、scikit-learn、matplotlib、seaborn 等。我想扩展我的工具箱并学习分布式计算框架。

Hadoop 在 2013-2014 年左右引起了很多争论。根据我对该主题的有限了解,Apache Spark 在各个方面都对 Hadoop 进行了多方面的改进。

那么,除了需要维护遗留 Hadoop 应用程序的明显情况外,到目前为止,还有什么理由更喜欢 Hadoop 而不是 Apache Spark?

1个回答

在这个时候,如果我必须从头开始一个项目并且必须在 Hadoop 和 Spark 之间做出选择,我肯定会选择 Spark 而不是 Hadoop。有几个原因:

  • Spark 比 Hadoop 更高效,因为 Spark 中的处理是在内存中进行的,而 Hadoop 需要将中间结果存储在磁盘中。
  • Spark 提供了数十种不同的操作,并且不仅限于 Hadoop 的 map-reduce。

但是,我仍然认为在尝试学习 Spark 之前学习 Hadoop 是有价值的,即使它处于高水平。这些是一些原因:

  • 您可能会遇到一些基于 Hadoop 技术的遗留应用程序/系统
  • 它简要介绍了 Spark 中使用的一些概念
  • Spark 有时会与 Hadoop 生态系统中的某些技术结合使用,例如 Hive 和 HDFS(Spark 不包含存储数据的方式,但它可以从多个来源获取数据,包括 HDFS,以及具有基于 HDFS 的数据存储的 Spark 集群是通常的组合)。