人类语音中的词熵/频率

机器算法验证 可能性 频率 信息论
2022-04-01 05:30:45

我想知道如何最好地近似一个单词的信息值x一般的人类语言通过信息价值,我的字面意思是它的熵:

H(X)=EX[I(x)]=xXp(x)logp(x).

p(x)单词的概率x发生在一般人类语音中(假设没有参与者或其上下文)。

但是,什么是最先进的研究p(x)及其属性?是否有任何已知的“良好估计”p(x)? (至少在标准英语中)

我想谷歌返回的网站数量或维基百科中的词频统计数据可以帮助近似p(x). 但是统计学或计算语言学界有没有尝试过估计p(x)? 如果是这样,怎么做?

据我了解,安全社区求助于近似p(x)用于估计密码强度(例如,参见 Cryptography thread XKCD #936: Short complex password, or long dictionary passphrase?)。所以我想好的抽样分布p(x)存在并且至少被一些社区使用。

其他注意事项:

  • 根据维基百科,截至 2005 年 11 月 30 日,牛津英语词典有 301,100 个主要词条。p(x)可以理解为一个在 0 和 1 之间具有约 300K 值的向量。
2个回答

这是一个令人惊讶的令人沮丧的事情。

Shannon 在最早的信息理论论文之一(Shannon,1951 年)中对此进行了研究,并使用简洁的“猜测游戏”范式估计了印刷文本的熵约为 1 位/字符。在同一篇论文中,他估计一个单词的熵大约为 12 位。然而,香农使用了一个相对较小的数据集[*],结果证明熵取决于许多因素。@Lmorin 上面提到了时间,但其他相关因素包括主题(例如儿童书籍的词汇量有限)、形式、上下文、作者的风格等等!

的总称P(word)是一种语言模型,计算语言学家/自然语言处理研究人员花费大量时间构建它们,因为它们非常有用 [**]。这些模型包含每个字符或每个单词的概率。语言模型通常还包含有关单词之间转换的信息。三元组(或三阶模型)看起来像P(Wordn|Wordn1,Wordn2)。但是,概率通常不是直接从数据中获取的——它非常稀疏——因此有各种平滑/插值/回退方法旨在产生合理的概率分布。

任何体面的 NLP 教科书都应该有一章关于语言建模。您可以从Manning 和 Schutze 的“骰子书”的第 6 章或Jurafsky 和 ​​Martin的第 4 章开始然而,语言模型非常有用,以至于它们也会出现在语音识别、信息检索甚至生物信息学等多种环境中。如果您想阅读更多内容,此幻灯片可能是一个不错的起点。

还有一些关于人类语言模型的文献。诺姆·乔普斯基(Noam Chompsky)著名地咆哮道:“在对这个术语的任何已知解释下,‘句子的概率’的概念是一个完全无用的概念。” 但是很多人随后不同意。如果你对此感兴趣,你可能想寻找关于“统计学习”的论文(不是机器学习;心理学家使用这个术语有点不同)。


[*] 那是 50 年代,他可能大部分都是手动完成的,所以……很公平!

[**] 特别是,它可以帮助解决歧义。假设您无法判断一个 blob 本身实际上是一个“T”还是一个“I”。如果一个替代方案产生一个常用词而一个不产生(Ihefore vs 因此),那么您应该选择哪一个就很清楚了。

我可以给你更好的答案:

http://books.google.com/ngrams

优点:

如你看到的p(x)实际上是p(x,t),我认为这些信息有很多有趣(或有趣)的地方。(括号在 17° 世纪发生了什么?http://books.google.com/ngrams/graph ?content=%5B%28%5D%2C%5B%29%5D&year_start=1600&year_end=2000&corpus=15&smoothing=3&share= )

缺点:

我不知道您是否可以轻松获得所有这些数据。

您只有一部分书籍中出现了 ngram,这并不是您真正想要的。我认为这 2 个概率是相关的,但如果不做出可疑的假设,将很难找到该链接。