我有一个大数据集,其中有一列“clientid”和一个分类列“choice”。我想找出哪些客户有奇怪的选择组合(不太频繁的选择),并且将来能够立即识别未来客户的新奇怪组合。
| 客户编号 | 选择 |
|---|---|
| cl1 | 一种 |
| cl2 | b |
| cl2 | C |
| cl3 | d |
| cl4 | b |
| cl4 | C |
如果我通过 clientID 转置表,我将根据选择为每个客户端和不同的列设置一行,它将成为具有分类变量(选择)的稀疏数据集。有些客户只有一个选择,有些客户有多个选择,我想查找异常记录(clientid)
哪种算法可以帮助我解决这类问题?它是无监督的,所以我不知道什么是正常组合,它是分类变量的稀疏数据。