数据挖掘 - 离散值的回归？ - 吾爱随笔录

离散值的回归？

数据挖掘分类回归线性回归 k-nn

2021-10-13 14:36:32

我是机器学习/统计算法的新手，但我使用过一些简单的分类器和回归。

鉴于我的知识有限，我想就我是否走正确的方向提出一些意见。

我的问题如下：在给定数据库中最相似商品的已知价格的情况下，我希望对输入商品的价格做出最佳预测。

起初，这听起来像是回归问题，但我的特征既离散又连续。例如，产品品牌/型号是离散的，而制造年份是连续的？

现在，我正在考虑寻找 $x$ 通过欧几里得距离最接近的匹配，然后加权平均 + 以某种方式确保某些特征完全匹配（如项目模型类型）。

谢谢。

2个回答

即使您的输入（或其中的一部分）是离散的，您仍然可以执行回归。如果您考虑一下，即使您的“继续”值实际上也是离散的（从它们的初始测量精度/分辨率开始）。

您需要决定是否要训练模型来执行估计，或者只是将输入特征转换为向量空间并以一些欧几里德距离使用它们（为了确保某些特征完全匹配，只需添加一些“if”检查，以便您只能计算到相关样本的距离）。

要训练一个模型，它应该除了作为输入之外的所有特征（最好是标准化的），并输出一个数字，您可以稍后将其四舍五入为最接近的离散值（如果您愿意）。

我强烈建议从简单开始。似乎您正在尝试跳入某种推荐问题，甚至不知道您的数据或可能的情况。

如果要预测价格，这是一个回归问题。有回归问题和分类问题。基本上，给定一些特征（离散（汽车模型）或连续（每加仑英里数）），您想要估计价格（连续变量）。

您的模型将使用自变量（您的特征）来估计因变量。例如，线性回归模型的形式为 $y=mx + b$ 或者 $y=\beta_0 + \beta_1x$ （一样）。让我们假设 $x$ 表示汽车型号，我们有两种汽车型号：Model T 和 Model S，分别等于 0 和 1。

当您拟合这种类型的线性回归模型时，将为每个类别学习一个截距 $x$ . 因此，我们可能有类似的东西 $\beta_0 = b = 10000$ . 该模型还确定了模型的斜率，例如 $\beta_1 = m = 5000$ .

因此，当我们要预测汽车的价格时，我们使用全线性回归模型：

是的 = 10000 + 5000 X

$y = 10000 + 5000x$

因此，Model T 将估计为 10000，Model S 将估计为 15000。

现在，利用这些知识，我们可以扩展到更一般的问题。你有一些特征 $X$ 和持续的预测 $y$ . 有许多回归模型可供使用，线性回归（使用普通最小二乘法）就是其中之一。Scikit-learn 有多种回归模型可供选择和调整，您可以在他们的网站上找到更多信息。大多数（如果不是全部）都遵循上面的基本思想大纲。

我建议去尝试线性回归。它可能会表现不佳，但没关系！这是一个很好的扩展基准。我真的不明白你正在考虑的推荐系统以及它是如何联系起来的，所以我不能说如何处理它。但似乎你想推荐一个给定一些特性的价格，这就是回归所做的。

至于预处理你的数据，scikit-learn 有很多教程，我推荐谷歌搜索短语，如“编码分类特征”或“单热编码”或“为线性回归设置特征”。这就是所谓的预处理。

希望这不是太愚蠢，很难说出您熟悉的内容以及是否有任何内容会被其他人看到并发现有用。

其它你可能感兴趣的问题

上一篇2018年学习Hadoop有什么意义吗？下一篇我们可以从时间序列数据中预测未来何时发生事件吗？