词分类

数据挖掘 机器学习 分类 特征提取
2022-03-13 22:19:26

我的任务是使用机器学习根据产品型号对产品型号进行分类。零件编号可以有不同的长度和形式,可以包含字母和数字,在某些情况下还可以包含特殊字符,例如 123-456、ABC123、A/B/123。

任何人都可以对特征提取技术提出一些想法吗?

更新

为了提供更多上下文,这是一个典型的(合成)示例数据:

零件号 : 模型
MM2 EAB111-444CDE MM2
HPP6KT4ECCBD8IQI HI-PROMANIFOLD
5142814 UFG E315 电缆密封接头

因此,在某些情况下,模型是零件编号的一部分,但在其他情况下,地图并非无足轻重。作为另一个功能,我也可以包括供应商。

1个回答

根据您对问题的(非常简短的)描述,我了解到您有一个模型需要根据一个零件号(在您的描述中是单数)进行分类。这听起来像“翻译”:part -> model

如果是这样,您可以查看序列到序列模型。有关详细信息,请参阅“ Keras 中序列到序列学习的十分钟介绍”。

您可能需要根据字符级别进行翻译。例如,您可以使用序列到序列模型来添加数字(实际上不需要将它们相加),因此也许这可以解决您的问题。

或者,如果一个模型由几个部分组成,您当然可以构建一个“词袋”或使用TFIDF(当部分的数量很重要时)和一些多类分类器