为什么Hadoop没能流行起来?

数据挖掘 apache-hadoop 工具
2022-02-10 06:56:11

Apache Hadoop 曾经被认为是您作为数据科学家应该拥有的工具之一。在 2012 年到 2014 年左右,它在数据科学家中迅速流行起来,似乎被认为是与 Python、R 和 SQL 在同一条船上的工具集之一。

但是这些天我没有听​​到它的故事。事实上,谷歌趋势也同意我的观点,即 2015 年 5 月流行度达到顶峰。

为什么 Hadoop 未能像 Python 或 R 一样成为数据科学家的必备工具之一?

2个回答

我不会说 Hadoop 没有流行起来,而是我会说,它仍然是任何生产大数据系统的基础。

Python 或 R 在刚开始时很方便,当您只需要尝试时,但在将事物投入生产时,Hadoop 是要走的路。它不直接提供任何数据科学家工具,它提供的是存储、处理数据的基础,并可用于使用 Spark 应用机器学习算法。

总而言之,我看到 Hadoop 在以下情况下使用

  1. 用于生产系统中的数据存储
  2. Hadoop YARN 作为 Spark、Flink 等工具的集群管理器
  3. 如果有人仍然想用 R/Python/SAS 编写代码 - Hadoop 被用作后端。

希望这可以帮助。

您正在将苹果与橙子进行比较。Hadoop是大数据平台的后端之一,Python/R是用于构建预测模型和数据管道的编程语言。Hadoop 仍然可以用作数据存储,但是更健壮和更快的分布式数据存储框架越来越受欢迎,例如 Apache Spark,因此 Hadoop 失去了它的魅力。