帮助定义问题的两类类别是什么

数据挖掘 机器学习 算法
2022-03-06 21:58:51

在学习机器学习时,我了解到在开始尝试建模之前定义问题的重要性。

我可以看到 2 种类型的问题分类:

  1. 有监督/无监督/强化算法
  2. 分类/聚类/回归/排名

在网上找到的示例定义:

第一种:

  • 监督算法:训练数据集有输入和期望的输出。在训练期间,模型将调整其变量以将输入映射到相应的输出。
  • 无监督算法:在这个类别中,没有目标结果。这些算法将为不同的组对数据集进行聚类。
  • 强化算法:这些算法经过训练以做出决策。因此,基于这些决定,算法将根据输出的成功/错误进行自我训练。最终通过经验算法将能够给出良好的预测。

第二种:

  • 分类:您想要一个算法来回答二进制是或否问题(猫或狗,好或坏,绵羊或山羊,你明白了),或者您想要进行多类分类(草、树或灌木;猫,狗或鸟等)您还需要标记正确的答案,以便算法可以从中学习。
  • 聚类:您需要一种算法来查找分类规则和类数。与分类任务的主要区别在于,您实际上并不知道分组及其划分的原则是什么。例如,这通常发生在您需要细分客户并根据其质量为每个细分定制特定方法时。
  • 回归:您希望算法产生一些数值。例如,如果您花太多时间为您的产品确定合适的价格,因为它取决于许多因素,回归算法可以帮助估计这个值。
  • 排名:一些机器学习算法只是根据一些特征对对象进行排名。排名被积极用于推荐视频流服务中的电影,或者显示客户根据他或她之前的搜索和购买活动很有可能购买的产品。

每种类别都有名称吗?这些类型是相关的还是独立的?

3个回答

从广义上讲,我们可以简单地将 ML 算法分为以下几组: 1. 监督学习:监督学习是您有输入变量 (x) 和输出变量 (Y),并且您使用算法来学习从输入到模型的映射函数。输出。

  Y = f(X) = a1x1 + a2x2+a3x3+.....+ anxn

我们的目标是找到 a1,a2,a3,....,an 的值,这样对于 input(x1,x2,x3,....xn) 的每个值,我们都可以预测输出 Y( 连续或分类)。进一步在监督学习中,人们可以根据问题陈述和所需的输出使用 ML 算法。例如:从一组自变量中确定股票价格(连续变量),然后在这种情况下可以使用回归,这是一种监督算法。

  1. 无监督学习:无监督学习是指只有输入数据 (X) 而没有相应的输出变量。无监督学习的目标是对数据中的底层结构或分布进行建模,以了解有关数据的更多信息。没有标记输出来映射描述输入和输出之间关系的函数。

例如:市场细分就是这样一种问题陈述,可以使用无监督算法(如聚类)根据同质性获得不同的细分。

无监督算法的其他示例是 PCA、关联规则、异常检测等。

注意:在某些现实生活场景中,可能存在两种问题混合在一起的情况,即很少有数据有标签而其余数据没有,在这种情况下,需要部署半监督技术来找到解决方案。

  1. 我从未见过这些分类的名称。但是,它似乎按类型分类目标变量如何存在或目标变量的类型(监督和半监督)或输入变量(无监督)

[错误] 2. 我认为在数据挖掘中我们将“强化算法”称为半监督。

  1. 我认为排名将是一个回归问题。就在定义的数字之后,您可以根据它们的顺序将它们更改为排名。

  2. 您命名的第一类和第二类分类之间存在一些相关性,您可以在这张图片中看到: 变量的目标和类型的存在

https://towardsdatascience.com/supervised-vs-unsupervised-learning-14f68e32ea8d

你说的对!正确定义问题陈述对于努力实现解决方案很重要。这适用于所有领域。

由于机器学习 (ML) 和人工智能 (AI) 的炒作,许多人试图仅使用 ML 和 AI 来解决问题。确定它是否是数据科学问题非常重要。

可以遵循数据科学的CRISP-DMTDSP方法。

数据科学问题是根据人们想要获得的答案类型进行分类的。数据科学回答的 5 个问题