数据挖掘 - 为什么Hadoop没能流行起来？ - 吾爱随笔录

数据挖掘 apache-hadoop 工具

2022-02-10 06:56:11

Apache Hadoop 曾经被认为是您作为数据科学家应该拥有的工具之一。在 2012 年到 2014 年左右，它在数据科学家中迅速流行起来，似乎被认为是与 Python、R 和 SQL 在同一条船上的工具集之一。

但是这些天我没有听到它的故事。事实上，谷歌趋势也同意我的观点，即 2015 年 5 月流行度达到顶峰。

为什么 Hadoop 未能像 Python 或 R 一样成为数据科学家的必备工具之一？

2个回答

我不会说 Hadoop 没有流行起来，而是我会说，它仍然是任何生产大数据系统的基础。

Python 或 R 在刚开始时很方便，当您只需要尝试时，但在将事物投入生产时，Hadoop 是要走的路。它不直接提供任何数据科学家工具，它提供的是存储、处理数据的基础，并可用于使用 Spark 应用机器学习算法。

总而言之，我看到 Hadoop 在以下情况下使用

希望这可以帮助。

您正在将苹果与橙子进行比较。Hadoop是大数据平台的后端之一，Python/R是用于构建预测模型和数据管道的编程语言。Hadoop 仍然可以用作数据存储，但是更健壮和更快的分布式数据存储框架越来越受欢迎，例如 Apache Spark，因此 Hadoop 失去了它的魅力。

其它你可能感兴趣的问题