橙色 3“查找信息预测”和目标变量?

数据挖掘 预言 绘图
2022-02-26 11:25:41

Orange 3 中的“查找信息投影”功能存在问题。为了能够在散点图中使用此功能,您必须在“选择列”中选择一个目标变量。所以我选择了我最感兴趣的寻找相关性的值。但是,无论我选择什么作为目标变量,都不会在信息预测列表中显示为与我的数据集中的其他特征相关。为什么不?

我的数据中有很多特征,并且给人的印象是“查找信息投影”选项会找到似乎具有线性相关性的特征对,并按照最相关的对对它们进行排序。

如果是这样,你为什么需要一个目标变量?如何选择合适的目标变量?

我是否误解了“查找信息预测”功能的目的?

我附上我的工作流程的图片。 橙色数据工作流

2个回答

与问题(Find Informative Projections 的问题)略有相关,我发现这篇文章试图解决这个问题:Find Informative Projections 工具被禁用,Orange 没有提供任何关于原因的提示。

最后,问题出在我这边:我在加载数据时忘记将任何变量设置为 Target,因此在 Scatter Plot points-colors 部分中选择它是没有用的。

双击文件以加载数据,您可以在其中选择变量是分类变量还是数字变量,然后双击我想用作目标的变量(标记为特征)以将其选择为目标和查找信息预测再次启用。

PS:我还注意到在进行预测时,加载的文件应该将所有变量标记为Features。如果您像以前一样将其中一个变量标记为目标,Orange 会在“预测”小部件上显示一个带有感叹号的红色圆圈,并显示一条消息:“数据与预测变量的目标不同”(即使它是)。我猜预测文件中的目标是通过检查文件中缺少哪些信息来自动设置的。

正如您所说,“查找信息丰富的预测”为您提供了解释目标变量的最佳特征对(“得分图”)。两个最佳特征将在 x 轴和 y 轴上,而您的目标变量将是颜色(色调为数字,否则为分类)。

这是 Iris 数据集的示例。其中“iris”是目标 --> 颜色,花瓣长度和花瓣宽度是信息量最大的特征,其次是花瓣宽度和萼片宽度,依此类推。

在此处输入图像描述