Apache Hadoop 曾经被认为是您作为数据科学家应该拥有的工具之一。在 2012 年到 2014 年左右,它在数据科学家中迅速流行起来,似乎被认为是与 Python、R 和 SQL 在同一条船上的工具集之一。
但是这些天我没有听到它的故事。事实上,谷歌趋势也同意我的观点,即 2015 年 5 月流行度达到顶峰。
为什么 Hadoop 未能像 Python 或 R 一样成为数据科学家的必备工具之一?
Apache Hadoop 曾经被认为是您作为数据科学家应该拥有的工具之一。在 2012 年到 2014 年左右,它在数据科学家中迅速流行起来,似乎被认为是与 Python、R 和 SQL 在同一条船上的工具集之一。
但是这些天我没有听到它的故事。事实上,谷歌趋势也同意我的观点,即 2015 年 5 月流行度达到顶峰。
为什么 Hadoop 未能像 Python 或 R 一样成为数据科学家的必备工具之一?
我不会说 Hadoop 没有流行起来,而是我会说,它仍然是任何生产大数据系统的基础。
Python 或 R 在刚开始时很方便,当您只需要尝试时,但在将事物投入生产时,Hadoop 是要走的路。它不直接提供任何数据科学家工具,它提供的是存储、处理数据的基础,并可用于使用 Spark 应用机器学习算法。
总而言之,我看到 Hadoop 在以下情况下使用
希望这可以帮助。
您正在将苹果与橙子进行比较。Hadoop是大数据平台的后端之一,Python/R是用于构建预测模型和数据管道的编程语言。Hadoop 仍然可以用作数据存储,但是更健壮和更快的分布式数据存储框架越来越受欢迎,例如 Apache Spark,因此 Hadoop 失去了它的魅力。