我是人工智能领域的新手,我正在研究使用分类进行垃圾邮件检测的经典示例。我正在使用朴素贝叶斯算法以及 SVM。
在处理它们时,我想到将发送电子邮件的人的电子邮件地址作为一项额外功能将提高我的算法的准确性,因为除了电子邮件本身的内容之外,我们还将获得一些额外的信息。会是真的吗?我怎么能使用这个额外的功能?我应该将其添加到我的电子邮件内容中吗?
我是人工智能领域的新手,我正在研究使用分类进行垃圾邮件检测的经典示例。我正在使用朴素贝叶斯算法以及 SVM。
在处理它们时,我想到将发送电子邮件的人的电子邮件地址作为一项额外功能将提高我的算法的准确性,因为除了电子邮件本身的内容之外,我们还将获得一些额外的信息。会是真的吗?我怎么能使用这个额外的功能?我应该将其添加到我的电子邮件内容中吗?
请接受我的道歉,因为这不是一个真正的数据科学答案。
许多垃圾邮件发送者使用欺骗性的电子邮件地址作为发件人,因此仅此字段作为维度可能不是很有帮助。除非您以某种方式对其进行预处理,否则可能值的数量也可能使其无法用作特征(即 1 热编码)。发件人域、发件人服务器信誉分数等可能比电子邮件地址本身更有帮助。