基于招聘广告的技能分类

数据挖掘 机器学习 分类 nlp 文本挖掘
2022-03-01 19:50:12

我在 IT 领域有大约 1,000 个招聘广告(在 excel 文件中)。我想找到每个广告中提到的技能。然后根据技能找到类似的工作。

我的方法:我创建了12个类别,例如编程技能,测试技能,沟通技巧,网络技能,...。每个广告可能属于 3-4 个类别。在这种情况下,一些所说的多变量分类或多标签分类是有用的。但我不知道如何在 RapidMiner 中进行这种分类。

1- 有谁知道如何在 RapidMiner 中进行多变量分类或多标签分类?还是有其他方法?

2-您是否建议“分类”以分析所需的工作技能?或其他技术?

3- 有没有更好的方法来对招聘广告中描述的技能进行分类?

我是文本挖掘领域的新手。如果您有任何想法,请告诉我。谢谢

2个回答

我不了解 RapidMiner,但对于初学者来说,Orange似乎是一个很棒的开源工具。

特别是如果你想做无监督学习,即聚类。我猜你可能想在一些词袋模型中预处理你的文本数据并将其保存为 CSV。

我还听说 Orange 有一个文本挖掘插件,但我还没有尝试过。

橙色屏幕显示

RapidMiner 实际上非常擅长多变量分析。困难的部分是将数据转换为适当的格式。

为了执行聚类,应将数据转换为一种格式,以便可以根据技能比较两个工作。例如,每个作业都可以表示为一个 12 维布尔向量

[x1,,x12]
其中每个xi代表一种技能true如果工作涵盖技能和false除此以外。作业之间的距离度量例如是Hamming-distanceRapidMiner 在不同类型的特征向量之间提供了广泛的距离度量(NominalDistanceRapidMiner 中称为汉明距离,但其他可能更好)。