这是一个令人惊讶的令人沮丧的事情。
Shannon 在最早的信息理论论文之一(Shannon,1951 年)中对此进行了研究,并使用简洁的“猜测游戏”范式估计了印刷文本的熵约为 1 位/字符。在同一篇论文中,他估计一个单词的熵大约为 12 位。然而,香农使用了一个相对较小的数据集[*],结果证明熵取决于许多因素。@Lmorin 上面提到了时间,但其他相关因素包括主题(例如儿童书籍的词汇量有限)、形式、上下文、作者的风格等等!
的总称P(word)是一种语言模型,计算语言学家/自然语言处理研究人员花费大量时间构建它们,因为它们非常有用 [**]。这些模型包含每个字符或每个单词的概率。语言模型通常还包含有关单词之间转换的信息。三元组(或三阶模型)看起来像P(Wordn|Wordn−1,Wordn−2)。但是,概率通常不是直接从数据中获取的——它非常稀疏——因此有各种平滑/插值/回退方法旨在产生合理的概率分布。
任何体面的 NLP 教科书都应该有一章关于语言建模。您可以从Manning 和 Schutze 的“骰子书”的第 6 章或Jurafsky 和 Martin的第 4 章开始。然而,语言模型非常有用,以至于它们也会出现在语音识别、信息检索甚至生物信息学等多种环境中。如果您想阅读更多内容,此幻灯片可能是一个不错的起点。
还有一些关于人类语言模型的文献。诺姆·乔普斯基(Noam Chompsky)著名地咆哮道:“在对这个术语的任何已知解释下,‘句子的概率’的概念是一个完全无用的概念。” 但是很多人随后不同意。如果你对此感兴趣,你可能想寻找关于“统计学习”的论文(不是机器学习;心理学家使用这个术语有点不同)。
[*] 那是 50 年代,他可能大部分都是手动完成的,所以……很公平!
[**] 特别是,它可以帮助解决歧义。假设您无法判断一个 blob 本身实际上是一个“T”还是一个“I”。如果一个替代方案产生一个常用词而一个不产生(Ihefore vs 因此),那么您应该选择哪一个就很清楚了。