页面阅读时间的正确分布是什么?

机器算法验证 造型 随机变量 模拟
2022-04-12 07:34:41

我想模拟一个用户阅读一本书。在一个页面上花费的时间是随机的,但受特定分布的影响,我只是不知道是哪一个。正态分布的问题是它可以产生负值,这显然是不正确的。

这种随机变量的正确分布是什么?

2个回答

它有助于拥有数据。 Jakob Nielsen 测量了网页的阅读时间(“How Little Do Users Read”,2008 年),给出了一些强有力的提示:

  • 数据显示,阅读时间的变化与一页的字数成正比。

  • 因此,变化应该表示为相对于页面长度的时间,而不是固定的量。

  • 该比率的对数呈近似正态分布,标准差约为 12%。

尼尔森图

尼尔森报告中的这个散点图对于揭示阅读时间的相对变化量很有价值,即使实际上每页只有一小部分(约 18%)被阅读。注意绝对变化如何随着字长(页面大小)增加;这种并发症是通过使用相对变化的对数来处理的。

不要忘记书页也有不同数量的单词。变化将取决于与字长、页面宽度、段落长度、对话量等相关的累积微小差异。因此,对于具有统一页面外观的书,我们可以预期这种变化是正常的,除了章节的结尾和开头。末页将具有大致均匀的字长分布。取决于页面设计,开始页面将具有比典型(完整)页面更小的平均值的近似正态分布。

这给出了一个复杂的分布,但它相对容易模拟。参数应包括

  1. 每(整)页的平均字数,w. 您可以轻松地针对您尝试模拟的实际书籍来衡量这一点。

  2. 每(整)页字数的标准差,s. 同样,这很容易测量。

  3. 每个起始页的平均字数,u,也很容易测量。

  4. 读取时间的对数变化,σ. 根据 Nielsen 的研究,使用 12% 左右的值开始;考虑查看其他研究以获取其他现实价值。

  5. 用户的阅读速度,v,如每分钟的字数,说。通常使用 200-250 wpm 左右的值,具体取决于阅读器的类型。

  6. 每章的平均页数,n,也很容易测量。

  7. 平均翻页时间,t. 您可以自己对读者进行一点研究,也许可以花一个小时在图书馆看秒表:-)。不要对这个数字过于挑剔——这取决于书的大小、页面材料和读者——但它可以贡献足够的时间来让人们对模拟感兴趣。

模拟应包括一整章,模拟为由一个起始页组成的序列,n2普通页面和一个结束页面。模拟字数,m, 作为

m=(n2)w+u+zw+r

在哪里z有制服(0,1)分布和r具有均值的正态分布0和标准差sn.

绘制一个值x从具有均值的正态分布0和标准差σ. m经过wexp(x)/v模拟阅读时间。添加nt分钟翻页。

对于文本同质、阅读难度一致且没有插图的书籍,此过程将捕捉对阅读时间的最重要影响。对于更复杂的书籍,例如阅读集、数学或科学、有大量对话的书籍、插图书籍等,模型可能需要更复杂才能真实。


编辑

事实证明,我们可能能够证明和充实@Jason 提供的建议,因为在大多数情况下,这种复杂但现实的模拟可以通过 Gamma 分布的一个版本非常好地近似。除了选择其形状参数外,我们还必须重新缩放和移动 Gamma。

这是一个(典型)示例,基于100,000迭代与w=300每页字数,s=15单词(每页 SD),u=100每个起始页的字数,σ=0.12,v=250每分钟字数,n=8每章页数,以及t=0.04每翻页的分钟数。

仿真结果

直方图给出了结果的分布,而实心红色曲线是带有形状参数的 Gamma 分布的 PDF27.416, 尺度参数0.2043, 抵消2.98分钟。

这种近似值仅适用于极短的章节长度,但即使在n=3

n=3 的模拟结果

这种观察的潜在优势是,如果您愿意指定分布的三个独立参数,例如其均值、标准差和偏度,则可以避免估计建模所需的许多参数。例如,如果您有关于章节阅读时间的实际数据,您可以使用前三个样本时刻来拟合数据的三参数 Gamma 分布,然后通过从该 Gamma 中抽取来执行模拟。

此外,如果您假设阅读本书章节的时间是独立的,则很容易添加这些 Gamma(每章一个)以获得阅读整本书的时间长度的分布(因为形状参数的总和具有共同比例因子的 Gamma 分布是它们的形状参数的总和)。即使使用最少的数据(例如此处使用的数据),您也可以为单个章节运行一些模拟,将 Gamma 拟合到这些模拟结果,然后继续推断(而不是模拟)总阅读时间。

例如,在这种情况下,一本书的阅读时间16章节应遵循具有形状参数的 Gamma 分布16×27.4164, 尺度参数0.2043, 抵消16×2.98分钟。对于许多书籍(有很多章节),对于所有实际目的,生成的分布都是正态分布。这种分布分配给负值的机会非常小,以至于无关紧要。

读书时间分布

蓝色曲线显示读书时间的分布。叠加在其上的红色虚线曲线是正态近似值。两种分布都没有将任何明显的概率分配给少于 240 分钟的时间。

您可以使用伽马分布。在维基百科上查看

Gamma 分布通常用于模拟等待时间,就像您在此处遇到的情况一样。