数据可视化 - 总结 190 种方法和响应率

机器算法验证 数据可视化 大数据
2022-04-09 14:40:06

我有一个非常大的数据集,我想在尽可能小的空间中进行总结,最好是 A4 的一侧。

数据来自客户满意度调查,为李克特式量表,每个工作区5个量表,共190个工作区。我还想以某种方式在可视化上表示响应率,因为响应率变化很大,我希望管理层查看这些以及实际分数。

如有必要,我不介意以某种方式将 5 个比例缩小为 1 个(使用因子分析或类似的东西)。A4 的一两个方面去高级管理团队,他们当然非常忙于许多其他事情,而且绝对是非技术性的。使用颜色没有问题,实际上可能会被视为一种恩惠。

我刚刚想到,表示工作区域的顺序,而不是它们的绝对值,就可以了,但我又不想丢失响应率信息。

希望这个问题不会太模糊,任何想法都非常感激。我正在使用 R 并预计这项工作将涉及我的学习 ggplot2,我还没有开始学习。

3个回答

我发现热图是在有限空间中汇总大量多维数据的最有效方法之一。LearnR 博客有一个在 ggplot2 中创建一个很好的示例

为了给你更多的东西来看看:

  • 主要组件 - 看看以前关于PC的一些答案。特别是,这个答案可能会有所帮助。
  • 聚类分析。这个页面在 R 中给出了相当不错的整体。

我建议尽可能多地尝试,看看会发生什么。一旦您将数据以合理的格式保存在 R 中,尝试这些操作应该不会花费太长时间。

我建议您查看任一箱线图(如果您有 R 的介绍文本,箱线图似乎总是他们使用的第一个图之一),或者您可以在 Y 轴上绘制每个组的平均值并使用X 轴代表您的 190 个工作区域中的每一个(然后可能会放置代表平均值估计的置信区间的误差线)。

您可以将每个李克特量表彼此相邻绘制,并使用不同的颜色来表示平均值,并且只要您为跨工作区域的李克特量表选择不同的颜色和相同的顺序,人们就可以区分它们。

但我个人只会在它们彼此之间有某种关系的情况下将它们彼此相邻绘制(如果比例 A 很高,我可能希望比例 B 很低)。如果不是,您可以将图表叠放在一起(查看 R 中的 lattice 包,是我认为带有示例 R 代码的一个很好的示例),因此您只需要标记一个 X 轴(这也允许您使用不同的 Y 轴刻度,如果刻度不容易绘制在所有相同的 Y 水平上,尽管根据您的描述,情况似乎并非如此)。您还可以将响应率作为面板之一(可能表示为条形)。

190 个不同组的困难在于,除非您突出显示特定组,否则您将难以区分不同的工作组,但任何包含所有组的图表都可以很好地检查整体趋势(并且可能会发现异常值)。此外,如果您的工作组没有逻辑顺序或更高顺序的分组,则轴上的方向将是任意的。您可以根据其中一个量表上的值(或根据响应率)进行排序。

此外,我目前正在亲自学习 R,我强烈建议您查看Use R!斯普林格系列。这本书 A Beginner's Guide to R 是我遇到的最好的介绍性文本之一,他们有关于 ggplot2 的书籍和可能对你有帮助的 lattice 包。

最后,如果您发布一些情节和代码示例以使它们成为论坛上更多精通 R 的人群,则可能会为您提供建议。当你完成后回来发布你的结果!HTH,祝你好运。