如何使用机器学习规范 IT 的技术技能?

数据挖掘 机器学习 Python 深度学习 数据清理 数据科学模型
2022-03-01 05:57:39

我从各种在线资源中收集/收集了大量技能。这是我们团队付出的巨大努力。

现在,我们面临的最大挑战是尝试将技能恢复到其根源形式以减少重复。

这里举几个例子,

agile    (or) agile methodologies  (or) agile software
java 2.x (or) java 3.x (or) java

这种重复很常见是我的数据集。所以我正在寻找一种使它们正常化的方法。

我不太确定解决此问题的方法。谁能建议我一些非常好的方法,我们可以以相当的准确度解决这个问题?

谢谢

1个回答

在第一次迭代中,使用句子编码器。您可以在 tensorflowhub (https://www.tensorflow.org/hub/tutorials/semantic_similarity_with_tf_hub_universal_encoder)、spacy (https://spacy.io/universe/project) 上找到训练模型/spacy-universal-sentence-encoder ) 或 huggingface ( https://huggingface.co/sentence-transformers/bert-base-nli-mean-tokens ) 等等 API。正则表达式、Levenshtein 距离和其他老派指标都很棒,但一般来说,除了它们有一些共同的概念(例如敏捷方法论、Scrum 和看板)之外,你永远无法确定你想认为什么“相似” )。但是,如果您有一个良好的预训练编码器,就会捕捉到这种相似性。

在第二次和下一次迭代中,您现在可以使用编码器检查技能之间的相似性是否被正确标记,例如使用余弦距离。然后,您可以自动标记相似性并最终更正标签。一旦你有足够的标签,你现在可以在你自己的(更小的)数据集上重新训练编码器。