文本比较:发现差异

数据挖掘 机器学习 Python 文本挖掘 nltk 正则表达式
2022-03-13 10:23:27

我想知道比较两个文本并查看它们之间的差异的最佳方法是什么。

例如:

Sent_1=“This toolset is a set of macros for performing a number of modelling tasks.”

Sent_2=“This tool is a set of macros which help performing a certain number of tasks.”

我现在不介意上下文/含义,但我想知道发现差异的最佳方法是什么(查看每个单词,先行词和后续词),看看它有多准确。

1个回答

您可以查看字符串相似性度量TFIDF(通常使用余弦)。如果您想要一个同时适用于单词和句子级别的度量,还有更高级的选项,例如 SoftTFIDF。