数据挖掘 - 有哪些方法可以处理非政治正确的建议？ - 吾爱随笔录

有哪些方法可以处理非政治正确的建议？

数据挖掘机器学习推荐系统

2022-03-08 02:02:38

我们时不时地听到另一个基于 ML 的推荐系统向用户提出政治上令人反感的结果。在现代推荐系统中，目前正在使用哪些方法来防止此类情况？

2个回答

解决方案需要创建一个具有政治攻击性的术语列表。假设有一系列具有政治攻击性的术语，则有三种主要方法：

过滤数据。从训练数据中删除冒犯性术语。
约束优化。不允许包含条款的解决方案。
过滤输出。创建排名结果并显示第一个没有条件的结果。

鉴于政治攻击性变化的定义基于人、上下文和隐含含义，因此很难防止在某个时候冒犯某人。

据我所知，关于检测攻击性的文献总是关于检测攻击性内容（文本、图像、音频......）。但是，根据评论中的链接文章，此类问题与内容无关，而是项目 X 与项目 Y 的关联，即使 X 或 Y 本身都没有冒犯性，也被认为是冒犯性的。

这是一个非常困难的问题，因为系统没有任何信息可以作为关联攻击性的线索。所以据我所知，根据内容本身几乎不可能防止这种情况发生，我怀疑即使是现代推荐系统也能做到。

但这并不意味着无能为力。在这种情况下，我会仔细调查推荐者是如何根据数据得出这些关联的。我怀疑这种模式是由一些系统工作的员工甚至是一些用户恶意引入的：一些用户可能会注意到他们的“喜欢”或评分如何修改系统的推荐并协调欺骗系统（类似于谷歌轰炸之类的东西）。在一组用户的评分中检测异常行为应该更容易检测到，但这并不是推荐系统本身的直接部分。依赖推荐系统的大公司可能有这样的监控。

其它你可能感兴趣的问题

上一篇为什么测试集类不平衡会影响我的模型的性能？下一篇什么时候对没有统计意义的数据使用机器学习有意义