我想说的是
- 例如,如果我将字典中 Apple 的含义作为程序的输入,它应该将输出作为 Apple。
- 或者我说我的日常工作包括监控和管理资源——输出应该是项目管理。
含义和单词可以是字典,也可以是自定义的。我正在寻找想法和工具来进一步解决这个问题。
我想说的是
含义和单词可以是字典,也可以是自定义的。我正在寻找想法和工具来进一步解决这个问题。
虽然你的问题有一些模棱两可,但我试着回答。
据我了解,您希望您的模型能够预测句子或描述的“主题”。这只是一个可能有大量输出类的分类问题。
第一个初始问题是非常短的文档(句子)。大多数主题建模算法(例如 LDA)都有统计方法,并且不适用于非常短的文档(少于 50 个单词可能是非常短的文档的良好定义)。
第二个问题是你想如何收集足够的数据来训练你的模型,该模型应该从大量的输出类中预测目标?字典是不够的,因为它们为每个单词提供了一个单一的定义。字典中的单词示例没有多大帮助,它们可能会对您的模型产生不利影响。如何通过每个类的单个(或几个)示例来概括您的模型?
所以,这是不可能的,但也许有一些创新会有所帮助。
这是牛津词典中“苹果”的定义:“一种圆形的水果,有闪亮的红色或绿色皮肤,里面相当坚硬和白色”。定义中只有两个名词:“水果”和“皮肤”,如果我们只阅读定义而不考虑这两个词,即使我们人类也难以猜测。
考虑输入数据中的名词并使用它们来构建自然图。您只需考虑诸如“水果”之类的主要课程。如果你得到了一些好的结果,考虑换句话,adj, adv, ...