数据挖掘 - 如何使用机器学习规范 IT 的技术技能？ - 吾爱随笔录

如何使用机器学习规范 IT 的技术技能？

数据挖掘机器学习 Python 深度学习数据清理数据科学模型

2022-03-01 05:57:39

我从各种在线资源中收集/收集了大量技能。这是我们团队付出的巨大努力。

现在，我们面临的最大挑战是尝试将技能恢复到其根源形式以减少重复。

这里举几个例子，

agile    (or) agile methodologies  (or) agile software
java 2.x (or) java 3.x (or) java

这种重复很常见是我的数据集。所以我正在寻找一种使它们正常化的方法。

我不太确定解决此问题的方法。谁能建议我一些非常好的方法，我们可以以相当的准确度解决这个问题？

谢谢

1个回答

在第一次迭代中，使用句子编码器。您可以在 tensorflowhub (https://www.tensorflow.org/hub/tutorials/semantic_similarity_with_tf_hub_universal_encoder)、spacy (https://spacy.io/universe/project) 上找到预训练模型/spacy-universal-sentence-encoder ) 或 huggingface ( https://huggingface.co/sentence-transformers/bert-base-nli-mean-tokens ) 等等 API。正则表达式、Levenshtein 距离和其他老派指标都很棒，但一般来说，除了它们有一些共同的概念（例如敏捷方法论、Scrum 和看板）之外，你永远无法确定你想认为什么“相似” ）。但是，如果您有一个良好的预训练编码器，就会捕捉到这种相似性。

在第二次和下一次迭代中，您现在可以使用编码器检查技能之间的相似性是否被正确标记，例如使用余弦距离。然后，您可以自动标记相似性并最终更正标签。一旦你有足够的标签，你现在可以在你自己的（更小的）数据集上重新训练编码器。

其它你可能感兴趣的问题

上一篇cnn网络的全连接层是如何训练的？下一篇2D 卷积神经网络中的绝对值最大池化