匹配质量图

机器算法验证 数据可视化 协议统计
2022-03-25 03:45:20

福布斯有一篇关于学生-大学匹配质量的文章,其中包含一个有趣的图表,该图表基于 Eleanor Dillon 和 Jeff Smith 的工作论文

描述如下:

下面的图表代表了 2000 年代初上大学的个人,详细说明了各种能力四分位数(通过广泛的能力倾向测试衡量)的学生与大学质量四分位数的匹配程度。完美匹配会将 25% 的学生群体放置在对角线的每个圆圈中,而其他圆圈中没有学生。

大约 36% 的学生根据能力与大学进行了适当的“匹配”。大约 36% 的学生根据能力与大学进行了适当的“匹配”。处于顶尖能力四分位数和顶尖大学质量四分位数的学生占总学生人数的 11%,或所有处于顶尖能力四分位数的学生的 44%。总体而言,36% 的学生就读于其相应质量四分位数的大学,77% 的学生就读于其能力四分位数的一所学校。

这是福布斯图表: 匹配质量

我尝试在此图表上进行改进,因为我发现圆形区域很难比较,我不仅想查看绝对百分比,还想查看边际。这是我的尝试:

在此处输入图像描述

我没有费心做匹配着色(我不确定是否有一个好的指标),但我仍然觉得我的图表不令人满意。它需要大量的算术才能获得洞察力。

您将如何显示这些数据?

    cq   sa    pct  
     1    1   10.6  
     1    2    7.1  
     1    3    5.2  
     1    4      3  
     2    1    6.8  
     2    2    6.5  
     2    3    6.4  
     2    4    4.3  
     3    1      4  
     3    2    6.9  
     3    3    7.4  
     3    4    7.4  
     4    1    2.1  
     4    2    4.6  
     4    3    6.5  
     4    4   11.4  
3个回答

在我看来,值得注意的是,这些本质上是协议数据。我们应该使用为显示和评估此类数据而设计的图。为此,我最熟悉的情节是 Bangdawala 的协议图。你可以在这里找到它的讨论:

在 R 中,您可以包中使用?agreementplot创建一个。vcd(我知道它可以在 SAS 中使用 中的AGREE选项来完成PROC FREQ,而且我确信它也有 Stata 宏。)

library(vcd)
d = read.table(text="cq   sa    pct  
...  
4    4   11.4", header=T)
tab = xtabs(pct~cq+sa, d)

windows()
  agreementplot(tab)

## you can also get the Bangdiwala B agreement statistics: 
print(agreementplot(tab))
# $Bangdiwala
#           [,1]
# [1,] 0.1352742
# 
# $Bangdiwala_Weighted
#           [,1]
# [1,] 0.5426176
# 
# $weights
# [1] 1.0000000 0.8888889

在此处输入图像描述

从这个情节中需要注意的一些事情是:

  1. 矩形位于红色对角线上。这意味着任何一种衡量标准都不会系统地高于或低于另一个。(也就是说,两者都不是对另一个的有偏见的衡量。)
  2. 较重的黑色矩形占外围矩形面积的比例很小,表明学生与学校的匹配远非完美。
  3. (灰色矩形代表部分——“减 1”——协议。)

我认为原版的最大弱点是颜色强度主导了我们的感知,尽管它实际上没有意义,因为它复制了已经由位置表示的信息。我想这会导致您不满意并寻找替代方案。

这是一个使用颜色强度进行计数而不是使用大小进行计数的版本。

分类热图

它很好地显示了从对角线下降的计数,并且四分位数 2 和 3 没有那么不同。颜色和区域都不是很容易准确感知,但我从区域切换到颜色百分比,因为它更“一目了然”用于模式识别。我使用离散颜色而不是连续颜色来掩盖我认为无意义的变化。

查看边际,我发现在单独的条形图中比在重叠线中更容易看到模式——不知道为什么。

在此处输入图像描述

在此处输入图像描述

通过一些努力,可以将条形图附加到热图的两个边缘以获得真正的“边际”效果。

当 X 变量从高值变为下一个值时,线条确实更容易思考会发生什么。

在此处输入图像描述

数据似乎太粗略,无法通过可视化走得很远。

我认为当前的图表很好地显示了数据。堆积条形图具有如此好的进展,比大多数堆积条形图更容易遵循。原始气泡图显示两者之间存在合理的相关性(我计算为 0.36)。

一种替代方法是点图/折线图。

在此处输入图像描述

我喜欢这个的一件事是能够去趋势,然后绘制相同的线条。(所以你可以看到与预期的偏差,而不是简单的二元百分比。)我不确定什么是合理的模型。默认模型是交叉表中的残差,在这种情况下,它只是复制原始图表。

在此处输入图像描述

让我震惊(来自原始气泡图和此点状图)在极端情况下有更多的分箱,但我不确定量化它的方法。

您总是可以做更多花哨的事情(例如将两个四分位数集作为节点并显示加权线的网络图)。但我认为这些例子基本上是你所需要的。