规范化使用数据

数据挖掘 相关性 正常化
2022-02-15 18:31:23

我正在寻找识别数据中的趋势,特别是想知道我的应用程序在新注册中的使用是否在一周到一周的基础上增加。随着我们不断改进我们的产品,我希望能够确定应用使用和新功能发布之间的相关性。

我拥有的数据分为每周群组。每周我都有新注册的数量,以及这些帐户中有多少仍然处于活动状态(例如,用户正在登录系统)。

假设我有以下数据

第 1 周 - 10 个新试验,3 个帐户处于活动状态

第 2 周 - 15 次新试验,5 个帐户处于活动状态

第 3 周 - 4 个新试验,3 个帐户处于活动状态

第 4 周 - 20 个新试验,12 个活跃帐户

第 5 周 - 17 个新试验,9 个帐户处于活动状态

在我目前的分析方法中,第 3 周看起来很神奇,因为 75% 的账户仍然活跃……但实际上,与其他周相比,新试验的数量非常少。结果,我不觉得我在一周到一周的比较中准确地将苹果与苹果进行比较。

有没有办法可以标准化每周数据,以便我进行准确的分析 - 或者基于百分比真的是查看这些数据的最佳方式?

我对此很陌生,因此非常感谢任何帮助。

干杯

2个回答

由于注册人数如此之少,我怀疑您是否可以在此阶段从高级统计数据中获利。只需在 Excel 中沿时间线绘制数字并进行直观判断即可。

尝试使用平均值或中位数对跟踪和活动帐户数据进行标准化。结果统计数据将第 3 周显示为负值,可以解释为与所有数据的比较。请参阅下面的 Excel 图表。

平均正常 平均中位数组合

与尚未标准化的数据相反。 在此处输入图像描述