人工智能 - 如何根据文档中的含义预测“单词”？ - 吾爱随笔录

人工智能自然语言处理训练 Python 自然语言理解

2021-11-04 10:36:27

我想说的是

含义和单词可以是字典，也可以是自定义的。我正在寻找想法和工具来进一步解决这个问题。

1个回答

虽然你的问题有一些模棱两可，但我试着回答。

据我了解，您希望您的模型能够预测句子或描述的“主题”。这只是一个可能有大量输出类的分类问题。

第一个初始问题是非常短的文档（句子）。大多数主题建模算法（例如 LDA）都有统计方法，并且不适用于非常短的文档（少于 50 个单词可能是非常短的文档的良好定义）。

第二个问题是你想如何收集足够的数据来训练你的模型，该模型应该从大量的输出类中预测目标？字典是不够的，因为它们为每个单词提供了一个单一的定义。字典中的单词示例没有多大帮助，它们可能会对您的模型产生不利影响。如何通过每个类的单个（或几个）示例来概括您的模型？

所以，这是不可能的，但也许有一些创新会有所帮助。

这是牛津词典中“苹果”的定义：“一种圆形的水果，有闪亮的红色或绿色皮肤，里面相当坚硬和白色”。定义中只有两个名词：“水果”和“皮肤”，如果我们只阅读定义而不考虑这两个词，即使我们人类也难以猜测。

考虑输入数据中的名词并使用它们来构建自然图。您只需考虑诸如“水果”之类的主要课程。如果你得到了一些好的结果，考虑换句话，adj, adv, ...

其它你可能感兴趣的问题