我的任务是使用机器学习根据产品型号对产品型号进行分类。零件编号可以有不同的长度和形式,可以包含字母和数字,在某些情况下还可以包含特殊字符,例如 123-456、ABC123、A/B/123。
任何人都可以对特征提取技术提出一些想法吗?
更新
为了提供更多上下文,这是一个典型的(合成)示例数据:
| 零件号 : | 模型 |
|---|---|
| MM2 EAB111-444CDE | MM2 |
| HPP6KT4ECCBD8IQI | HI-PROMANIFOLD |
| 5142814 | UFG E315 电缆密封接头 |
因此,在某些情况下,模型是零件编号的一部分,但在其他情况下,地图并非无足轻重。作为另一个功能,我也可以包括供应商。