如果我说在 hadoop 集群系统中......客户端有 10GB 数据要发送到名称节点。分析“抓包”实际上name node并没有为data node划分数据,实际上所有的通信只发生在client和data node之间,从name node获取data node的ip后,client直接连接到data node之后他决定,他通过划分块在多少个分区中发送数据。然后数据节点接收数据,在此期间名称节点联系数据节点以准备复制这些数据。
所以我的问题是,通过这个过程,我意识到客户端发送的数据是由数据节点以串行方式接收的,并且数据节点会定期复制该数据并手把手地复制。然后,如果我发送一个 100GB 的文件,通常需要 100 分钟,但是在使用 Hadoop 之后,我的速度和时间比以前消耗更多,因为数据节点从客户端串行接收数据。“这是 Hadoop 的主要缺点吗??”