我一直在解决匹配产品名称的问题。我已经根据各种不同的特征(仅限数字、Levenshtein 距离、提取包装尺寸、品牌等)训练了一个模型。该模型吐出匹配与不匹配(1 或 0)的预测。最终,我明白这给了我想要的东西……它要么匹配,要么不匹配。
关于获得比赛分数的传统智慧是什么?它只是简单地将所有特征分数相加并划分,基本上是一个平均值吗?归根结底,如果算法真的无法让我找到“匹配”,我想将产品发送到 API 并接收最可能匹配的列表。
我一直在解决匹配产品名称的问题。我已经根据各种不同的特征(仅限数字、Levenshtein 距离、提取包装尺寸、品牌等)训练了一个模型。该模型吐出匹配与不匹配(1 或 0)的预测。最终,我明白这给了我想要的东西……它要么匹配,要么不匹配。
关于获得比赛分数的传统智慧是什么?它只是简单地将所有特征分数相加并划分,基本上是一个平均值吗?归根结底,如果算法真的无法让我找到“匹配”,我想将产品发送到 API 并接收最可能匹配的列表。
如果模型是软分类器(即它在将其转换为类别之前预测概率),那么简单的选择是使用基础概率(例如,使用predict_proba函数)。
另一种选择是直接训练回归模型:在训练数据中,任何具有“匹配”类的实例都表示为 1,而任何具有“不匹配”类的实例都表示为 0。这样模型直接预测一个数值可以用作分数。