我从我的数据集中提取了一些关于标点符号、大写字母、大写单词的其他特征。我得到了这些价值:
在 python 中使用 .corr() 查看与我的目标变量(1=垃圾邮件,0=非垃圾邮件)的相关性。BT 代表二进制文本,例如,BS 代表二进制摘要,我根据文本/摘要中是否存在大写字母或大写单词,或...
您认为这些功能在模型构建中有用吗?我看不到非常强的相关性,但我想根据这些特征(字符/文本长度的数量;存在!,大写单词......)来确定电子邮件是否是垃圾邮件。
我有大约 1000 封电子邮件,但只有 50 封是垃圾邮件(可能太小而无法提取有用信息)。但是,我必须提取这些信息,所以它是一个新的数据集,是我自己构建的,所以我无法收到更多的垃圾邮件(例如,我不想使用来自 kaggle 的数据集)。
你怎么看?
