什么是开始未知数据集(JSON数据)数据分析的好方法

数据挖掘 机器学习 数据挖掘 数据清理 mongodb json
2022-02-17 18:35:36

我正在与一个组织合作,分析他们在 Mongodb 中的数据,并寻找数据中的任何趋势/模式。我对数据分析的专业领域很陌生,但有很好的统计和数据挖掘背景(大学课程)。我将对数据进行概念验证,以了解组织正在收集的数据是否适合 Analytics,如果没有,他们应该在数据集中包含哪些增强功能以​​使其更好地适合 Analytics。我确实有一些我打算回答的预定义问题,但从战略上看什么是解决这类问题的好方法。

我之前曾在大学里处理过一些 Kaggle 数据集和项目,其中数据集是固定的并给出了要回答的问题。

2个回答

@Emre 提出了一个很好的观点。您可能应该询问企业他们正在尝试完成什么,因为只有这样您才能知道哪些数据很重要。您不想浪费时间清理对业务重要性最低的数据。

不管业务目标如何,值得指出的是,Mongo DB 是存储分析数据的一个非常糟糕的选择。没有强制模式,因此每条记录的格式可能完全不同且出乎意料。您可能缺少整列,可能根本没有列,错误的数据类型,重复,并且无法像在关系数据库中那样获得简单的汇总统计信息。您几乎将不得不对您的 MongoDB 数据进行数据库转储,并且可能半手动地梳理您的记录,寻找常见的模式并从那里开始。

简介:当您只想进行快速查找时,MongoDB 非常适合操作数据。但是,当您想对其进行任何形式的深入分析时,这是一个糟糕的选择。关系数据库更适合分析查询,因为数据是结构化的,还因为您可以更轻松地实施数据质量。

无论这些数据背后的业务是什么,最大的挑战是尝试提取能够带来有价值信息的字段/键。

这可以通过浏览数据、获取模式并尝试找出偏差来完成。由于 mongo 使用动态模式,这将使您有可能在一个集合中观察不同的文档类型 - 并且可以作为有价值/无价数据的来源。

您可以使用 robomongo 或 mongodb compass 进行一些数据可视化并掌握。

在这种情况下,必须学习 mongo 聚合框架和/或 map reduce 语法。

快乐挖矿!