我有一组销售交易数据,其中包含超过 1 件购买的商品。出售的每件商品都有一个类别。我想弄清楚哪些类别最常一起排序。
数据或多或少是这样的:
Transaction ID|Item ID | Sales Quantity|Item Category
1 Apple 1 Fruit
1 Banana 1 Fruit
1 Carrot 2 Vegetable
2 Carrot 1 Vegetable
2 Ice Cream 2 Dessert
3 Squash 2 Vegetable
3 Chocolate 2 Dessert
4 Apple 1 Fruit
4 Carrot 1 Vegetable
4 Doughnut 1 Dessert
只看上面你就可以看到在同一笔交易中有大量的蔬菜甜点配对。但现在想象一下,我们在数据集中有 250,000 多个交易和几十个类别。我只想发现跨类别销售。对苹果和香蕉(水果-水果)对不感兴趣。
我想我可以自学如何编写分析代码,但我只是不确定这叫什么或谷歌是什么。有什么想法吗?