机器算法验证 - 匹配质量图 - 吾爱随笔录

匹配质量图

机器算法验证数据可视化协议统计

2022-03-25 03:45:20

福布斯有一篇关于学生-大学匹配质量的文章，其中包含一个有趣的图表，该图表基于 Eleanor Dillon 和 Jeff Smith 的工作论文。

描述如下：

下面的图表代表了 2000 年代初上大学的个人，详细说明了各种能力四分位数（通过广泛的能力倾向测试衡量）的学生与大学质量四分位数的匹配程度。完美匹配会将 25% 的学生群体放置在对角线的每个圆圈中，而其他圆圈中没有学生。

大约 36% 的学生根据能力与大学进行了适当的“匹配”。大约 36% 的学生根据能力与大学进行了适当的“匹配”。处于顶尖能力四分位数和顶尖大学质量四分位数的学生占总学生人数的 11%，或所有处于顶尖能力四分位数的学生的 44%。总体而言，36% 的学生就读于其相应质量四分位数的大学，77% 的学生就读于其能力四分位数的一所学校。

这是福布斯图表：

我尝试在此图表上进行改进，因为我发现圆形区域很难比较，我不仅想查看绝对百分比，还想查看边际。这是我的尝试：

我没有费心做匹配着色（我不确定是否有一个好的指标），但我仍然觉得我的图表不令人满意。它需要大量的算术才能获得洞察力。

您将如何显示这些数据？

    cq   sa    pct  
     1    1   10.6  
     1    2    7.1  
     1    3    5.2  
     1    4      3  
     2    1    6.8  
     2    2    6.5  
     2    3    6.4  
     2    4    4.3  
     3    1      4  
     3    2    6.9  
     3    3    7.4  
     3    4    7.4  
     4    1    2.1  
     4    2    4.6  
     4    3    6.5  
     4    4   11.4

3个回答

在我看来，值得注意的是，这些本质上是协议数据。我们应该使用为显示和评估此类数据而设计的图。为此，我最熟悉的情节是 Bangdawala 的协议图。你可以在这里找到它的讨论：

Bangdiwala, SI 和 Shankar, V (2013)。协议图。 BMC 医学研究方法论，13:97。
（另见Bangdiwala 的 B。）

在 R 中，您可以在包中使用?agreementplot创建一个。vcd（我知道它可以在 SAS 中使用中的AGREE选项来完成PROC FREQ，而且我确信它也有 Stata 宏。）

library(vcd)
d = read.table(text="cq   sa    pct  
...  
4    4   11.4", header=T)
tab = xtabs(pct~cq+sa, d)

windows()
  agreementplot(tab)

## you can also get the Bangdiwala B agreement statistics: 
print(agreementplot(tab))
# $Bangdiwala
#           [,1]
# [1,] 0.1352742
# 
# $Bangdiwala_Weighted
#           [,1]
# [1,] 0.5426176
# 
# $weights
# [1] 1.0000000 0.8888889