我是一名数据分析师/科学家,主要使用 Python 开源堆栈,即 Pandas、scikit-learn、matplotlib、seaborn 等。我想扩展我的工具箱并学习分布式计算框架。
Hadoop 在 2013-2014 年左右引起了很多争论。根据我对该主题的有限了解,Apache Spark 在各个方面都对 Hadoop 进行了多方面的改进。
那么,除了需要维护遗留 Hadoop 应用程序的明显情况外,到目前为止,还有什么理由更喜欢 Hadoop 而不是 Apache Spark?
我是一名数据分析师/科学家,主要使用 Python 开源堆栈,即 Pandas、scikit-learn、matplotlib、seaborn 等。我想扩展我的工具箱并学习分布式计算框架。
Hadoop 在 2013-2014 年左右引起了很多争论。根据我对该主题的有限了解,Apache Spark 在各个方面都对 Hadoop 进行了多方面的改进。
那么,除了需要维护遗留 Hadoop 应用程序的明显情况外,到目前为止,还有什么理由更喜欢 Hadoop 而不是 Apache Spark?
在这个时候,如果我必须从头开始一个项目并且必须在 Hadoop 和 Spark 之间做出选择,我肯定会选择 Spark 而不是 Hadoop。有几个原因:
但是,我仍然认为在尝试学习 Spark 之前学习 Hadoop 是有价值的,即使它处于高水平。这些是一些原因: