选择正确的回归分析

数据挖掘 回归
2022-03-15 18:43:21

在 RI 有data哪里head(data)给出

day   promotion   profit   new_users
1           105    45662          33
2            12    40662          13
3            44    46800          20
4           203    54102          46

现在day只是这一天(并且是有序的)。promotion是当天的促销价值,是当天profit的利润,是当天new_users的新用户数。

promotion我想调查toprofit之间的关系new_users我们看到 和 之间存在明显的正相关,promotion并且和 之间profit存在正相关在 RI 中简单地测试相关性promotionnew_users

cor.test(data$promotion, data$profit, method="kendall", alternative="greater" )
cor.test(data$promotion, data$new_users, method="kendall", alternative="greater")

这两者都给出了一个低 p 值,即我们有一个正相关。

我想找到一个增加promotion不增加profitnew_users必须增加的点,即一个甜蜜点。

这是 2 个图和这些图的 R 代码

plot(data$promotion, data$profit, col="brown")
plot(data$promotion, data$new_users)

在此处输入图像描述

在此处输入图像描述

这应该怎么做?

我的想法在哪里制作回归模型。对于第一个“promotion vs. new_users”,可以使用毒药模型,因为它是一个计数过程,所以这样的模型会是一个不错的选择吗?

glm(formula= data$new_users ~ data$promotion, family="poisson", data=data)

接下来应该为下一个选择什么回归模型。可以说这个回归模型是一个不错的选择吗?(我使用 sqrt 命令)

glm(formula=data$profit ~ sqrt(data$promotion) , data=data)

或者也许根本不需要使用回归模型来找到最佳位置?

谢谢。

我现在看到了“好”的新用​​户。对于每个day我们都有一个promotion价值,我们有一个count价值,即新的好用户的数量。该图向我们展示了我们每天通过促销获得的优秀新用户数量。例如,对于促销价值 90,我们有一天获得 8 个新的好用户,一天我们获得了 14 个新的好用户。

找到使用促销的最佳位置的正确方法是什么?

在此处输入图像描述

2个回答

由于我没有足够的声誉而无法发表评论,因此我将其发布为答案。

如果你的目标是“找到一个增加促销不增加利润或新用户的点”,我不会做简单的回归,因为回归会告诉你,如果你做更多的促销,你总是会增加利润。我想说,实际上,促销与利润或新用户之间的关系不是线性的。因为新用户的数量是有限的,而促销活动不是。

一个更好的模型是说有一个最优的促销,会给你带来最好的利润增长和新用户。

(如果你有真正的业务要优化,我会介绍新用户的客户终身价值。因为一般情况下,你做大促销时获得的新用户不会回来......)

很抱歉将其发布为答案,因为评论需要积分。promotion在您的情况下,我无法理解 of 的概念。可能的场景:

  • 可供用户使用的促销计数(定量)在这种情况下,这些促销的详细信息将有很大帮助,即每个促销都有一个二进制列。

  • 促销 ID(分类)在这种情况下,我们需要将其视为factor例如,promotion等于 20 表示“乳制品折扣 30%”,20它本身并不意味着任何东西,并且并不比 更有效(增加new usersprofit19