我给我的学生一个有 8 个问题的考试。每个问题都与特定主题有关。考试是通过从针对该特定主题的问题池中为每个主题随机选择 1 个问题来进行的。每个主题池中有 20 个问题。我担心每个池中可能会有一些异常问题(即,它们比其他问题更容易或更难)。
我想知道每个池中的问题是否基本相同,或者池中是否存在比池中其他问题明显更难或更容易的特定问题。我有大约 300 名学生的分数。
任何人都可以提出一种方法,让我可以根据学生在考试实例中对其他问题的表现的难易程度对每个问题进行排名吗?
根据评论的要求,这里是我目前的幼稚方法:
假设考试由问题组成。每个问题都来自一个特定的池。形式的一组元素,其中是从中提取问题的池,而是该池中问题的实例。为了便于表示,我们假设每个池有个实例。所以每个考试是并且有个学生,所以我们有个考试,。我想确保所有对于固定的硬度和大致相似。
为了确定的相对硬度,我会查看所有包含的考试,并将每个学生在上的分数与他们在其余考试中的分数进行比较,例如,其中和表示该特定学生参加的实例。然后,总结的所有学生的差异。然后,我将比较特定池的如果一个特定的比其他的要大得多(超过 1 个标准偏差?),我将修改它的重量。
建议?注释?