使用python识别用户在不同活动中遵循的常见路径

数据挖掘 Python 可视化 顺序模式挖掘
2022-03-05 11:13:26

我有一个关于用户在平台上的行为的点击流数据。有按时间顺序提供的活动,用户可以在这些活动之间来回切换。下面是一个例子:

在此处输入图像描述

在这里,按时间顺序有 3 个活动。蓝色箭头代表一个用户,绿色箭头代表另一个用户。如您所见,这两个用户走的是不同的道路。

在我的场景中,我有超过 500 个用户,它们分为 2 个类别(让我们 A 组和 B 组),以及 50 多个活动。我想确定 A 组和 B 组用户的常见模式并在它们之间进行比较(我希望看到每个用户组都不同的模式)。

我想知道是否有一些我可以利用的有用(免费)工具。我更喜欢 Python,但我找不到 Python 库。我也在寻找一种工具(或 python 库)来可视化用户遵循的路径。有什么建议么?

1个回答

您可以使用数据库 (SQL) 按频率对路径进行排名,一旦您确定了窗口的长度,就可以根据需要限制起点和终点。如果您让路径长度可变,那么您将无法在 SQL 中完成所有操作。在这种情况下,您可以学习状态之间的转移概率,然后解决加权最短路径问题,其中距离是对数似然。或者,您可以使用启发式方法,例如 A* 搜索。我不知道有任何库会做这一切,因为它是非常临时的,但你可以在networkx中进行可视化。