使用交易历史发现跨类别销售(集群?)

数据挖掘 r 数据挖掘 聚类 擅长
2022-02-19 11:12:15

我有一组销售交易数据,其中包含超过 1 件购买的商品。出售的每件商品都有一个类别。我想弄清楚哪些类别最常一起排序。

数据或多或少是这样的:

Transaction ID|Item ID | Sales Quantity|Item Category
1              Apple     1              Fruit
1              Banana    1              Fruit
1              Carrot    2              Vegetable
2              Carrot    1              Vegetable
2              Ice Cream 2              Dessert
3              Squash    2              Vegetable
3              Chocolate 2              Dessert
4              Apple     1              Fruit
4              Carrot    1              Vegetable
4              Doughnut  1              Dessert

只看上面你就可以看到在同一笔交易中有大量的蔬菜甜点配对。但现在想象一下,我们在数据集中有 250,000 多个交易和几十个类别。我只想发现跨类别销售。对苹果和香蕉(水果-水果)对不感兴趣。

我想我可以自学如何编写分析代码,但我只是不确定这叫什么或谷歌是什么。有什么想法吗?

2个回答

请注意,您的数据可以重新排序,如下所示:

Transaction ID | Items
1                {Apple, Banana, Carrot}
2                {Carrot, Ice Cream}

这种数据集对于关联规则挖掘来说是微不足道的。一种非常简单且广为人知的此类算法是Apriori我确定在 R 中有用于执行此算法的包。

对于“仅发现跨类别销售”的限制,您可以对生成的规则进行后修剪,即。让算法生成跨品类销售,然后再删除那些,这应该是微不足道的。

根据@Mephy 的回答,我想再说明一点。关联规则挖掘,也称为“市场篮子分析”。

根据您的问题,谷歌搜索购物篮分析将为您提供更多结果,并且有很多关于 R 入门的示例和帖子。

例如arules,这是 R 中此类分析的一个很好的包。祝你好运!