我的目标变量是什么?

数据挖掘 机器学习 r 数据集 数据 数据科学模型
2022-03-16 11:01:10

我是数据科学的初学者。我有这个来自 R 中“mdhglm”包的“艾滋病”数据集。

数据集 = 艾滋病,信息 = 艾滋病数据重复措施

data("aids", package = "mdhglm")

在此处输入图像描述

在这里,我想知道我的目标变量是什么?
对不起,如果这个问题太基本了。

2个回答

获取数据集是定义 ML 问题的重要部分,但它不是唯一的。通常这涉及以下步骤:

  1. 定义问题的目标。示例:预测 AIDS 患者的 AZT 耐受水平。
  2. 获取问题的适当数据。
  3. 设计实验的正式设置:
    • 什么样的问题(例如分类)
    • 什么是目标变量,数据中的特征是什么
    • 如何评估结果的质量(绩效衡量,egf1-score)
    • 实验设置:ML 方法、使用交叉验证等。

你的目标变量是你想要预测的任何东西。对于这个特定的数据集,逻辑选择可能是“死亡”、“事件”或“AZT”。您通常希望使用某种患者数据来预测这些结果。例如,尝试建立一个从死亡变量预测治疗过程的模型没有多大意义 - 尽管它在统计上是可行的,但您通常更喜欢从治疗过程预测死亡的潜在因果关系。死亡不可能是治疗过程的原因,因为它总是发生治疗之后。

即使您可以根据某人是否死亡来确定治疗过程,但从实际的临床角度来看,它也不会很有用。在少数情况下您会知道某人是否死亡并且不知道他们的治疗过程(但想知道);拥有某人当前的治疗过程并预测他们是否会死亡会更有用。但原则上,您的目标可以是任何变量——生成的模型是否有用、是否有意义或在实践中是否可实施将取决于这些值实际代表什么。