我有一个针对 3 个类别的人的分类任务。我想为此应用机器学习。我有 10 个数据源,它们具有相同的字段(比如 4 个:年龄、职位、组织数量、追随者数量)。数据不完整,某些配置文件中可能缺少某些字段。训练集是有限的(比如 300 个示例)。
我有两种特征工程策略,我不知道该使用哪一种。
扩展特征:取40个特征(Profile 1 age, Profile 1 job title, ..., Profile 10 age, Profile 10 job title)。
紧凑的特征:采用 4 个特征,并应用一些启发式方法来合并来自不同配置文件的值。比如说,取最频繁出现的年龄和职位,取最大组织数,取粉丝数之和。
通常使用什么策略来获得最佳结果,为什么?