数据挖掘 - 字符串匹配分类和评分 - 吾爱随笔录

数据挖掘机器学习分类机器学习模型文本分类

2022-02-23 21:38:40

我一直在解决匹配产品名称的问题。我已经根据各种不同的特征（仅限数字、Levenshtein 距离、提取包装尺寸、品牌等）训练了一个模型。该模型吐出匹配与不匹配（1 或 0）的预测。最终，我明白这给了我想要的东西……它要么匹配，要么不匹配。

关于获得比赛分数的传统智慧是什么？它只是简单地将所有特征分数相加并划分，基本上是一个平均值吗？归根结底，如果算法真的无法让我找到“匹配”，我想将产品发送到 API 并接收最可能匹配的列表。

1个回答

如果模型是软分类器（即它在将其转换为类别之前预测概率），那么简单的选择是使用基础概率（例如，使用predict_proba函数）。

另一种选择是直接训练回归模型：在训练数据中，任何具有“匹配”类的实例都表示为 1，而任何具有“不匹配”类的实例都表示为 0。这样模型直接预测一个数值可以用作分数。

其它你可能感兴趣的问题