我正在研究命名实体识别 (NER) 项目。我决定从头开始实现一个库,而不是使用现有的库,因为我想了解 PGM 如何在后台工作的基础知识。我将句子中的单词转换为特征向量。特征是我手动挑选的,我只能想到大概 20 多个特征(例如:“token 是否大写?”、“token 是英文单词吗?”等)。但是,我听说好的 NER 算法使用 20 多个特征(有时是数百个特征)来表示令牌。他们是如何想到这么多功能的?在特征构建方面有没有推荐的最佳实践?
如何思考 NLP 问题中的特征
机器算法验证
机器学习
文本挖掘
特征工程
自然语言
2022-03-18 21:20:57
1个回答
确实,要拥有高效的 NER,您需要很多功能。如果您从头开始(我也是第一次做的),那么除了您提到的明显功能之外,真的很难弄清楚可以使用哪些功能。但真正提高我在我构建的那个上的分数的是引入上下文语法、标记和解析句子并使用它。您还可以添加单词矢量表示。最后,当您遇到困难的情况时添加一些特定于单词的功能似乎很重要(例如纽约时报,您可以为此添加一个专门的功能)。您还应该添加大字典并具有特征向量的维度,以判断单词是否属于特定字典...
祝你好运,要获得一个好的 NER 是一个非常困难的问题,而构建特征大多数时候是语言知识而不是数学知识!
其它你可能感兴趣的问题