如何获得大型数据库的(描述性)概述?

数据挖掘 r 可视化 描述性统计 聚合 ggplot2
2022-02-18 05:27:15

我正面临一个数据框架

  1. ~ 20 k 观察和
  2. 151 个变量
  3. 2078 个科目

起初,我主要对数据与单个参数的关系感兴趣。但我无法在 x 轴上绘制 2078 个主题并从中制作条形图。

对于这种情况有什么有用的方法?我更喜欢一些可视化,但我认为它们不适用。恐怕即使是非可视化方法也不是很有帮助。

1个回答

没有办法对这样的大型数据集进行完整的总结,你必须分析什么是相关的,分解成更具体的信息,然后找到最好的方法来单独可视化每个特定部分。

首先是绘制这个感兴趣的参数在受试者和/或观察中的分布。

如果您想查看个人级别并且值太多,您可以简单地选择一个随机子集(例如 100 个主题)并绘制它们。然后,您使用不同的随机子集再次执行此操作,以区分真实模式和偶然性变化。