什么时候可以坚持使用低性能模型?

数据挖掘 机器学习 深度学习 神经网络 数据挖掘 逻辑回归
2022-03-04 21:29:27

我已经在这里发布了,但它被标记为关闭,所以想在这里发布它(因为这可能是正确的论坛)

我正在研究一个包含 1000 条记录和 28 个特征的简单逻辑回归。

我的业务用户建议他们想先看看人工智能本身可以根据我们的数据做些什么。意思是,他们不希望我做特征工程、尝试多种算法等。

他们希望我避免这一切,因为他们觉得做特征工程需要时间,他们希望更快、更早地展示一些东西。对于第一次剪辑,他们希望在没有特征工程的情况下使用基线模型(即使它是 50% 的准确度)。

对于其中一门课,他们可以接受 30% 或 40%(至少目前如此)的低召回率,因为目前没有采取任何措施来解决这个问题没有人解决这个问题,甚至没有人想过解决这个问题。所以,这对他们来说是新的…… 所以,即使消极类的召回率很低,他们也觉得开始对他们来说是件好事(因为积极类的召回率很高)。意思是,他们准确地识别出这些阳性病例并跟进。由于这个模型在阳性病例方面是可靠的(对他们来说),他们希望接受这个。(并专注于那些阳性病例)当然,对负面案例的召回对他们来说是一个严重的问题。但至少他们有一个课程的解决方案,他们很高兴。但最终,他们也希望为负类提供解决方案。所以他们建议我在上线后做特征工程、模型实验等。现场,我的意思只是一个简单的静态仪表板(而不是高端 MLops 等)。

后来,他们想知道通过所有这些模型和新特征的实验,是否提高了对负类的召回率?

这是走得更远的正确方法吗?作为一名新手数据科学家,我对此感觉不妥。如果它至少是 80%(我的随机选择),我会有点好。我没有任何证据证明 80% 是正确的选择,而不是仅仅说没有正确预测更高的实际值。

所以我的问题是

a) 我应该怎么做,我应该确保让他们知道的陷阱/要点是什么?

b) 有什么重要的事情我应该强调它们吗?

c) 如果业务可以接受 50% 的 acc,是否仍应放弃该项目?只要业务正常,我们可以继续使用这种模式吗?

d) 从您的模型部署决策中获得的任何实时经验?

可以分享您对此的看法吗?真的有助于我学习并让他们了解吗?

1个回答

我完全同意statsSE 的答案,我没有太多要补充的:

  • 从本质上讲,这是一个商业决策:如果您认为公司做出了错误的决定,您可以表达您的担忧,但归根结底,这是他们的选择。
  • 我认为有一点特别值得公司明确,这就是该系统性能低下的实际含义。例如,很容易做一个随机分类器或一个总是预测多数类的分类器,但它没有用。他们是否知道在最坏的情况下,“低性能”意味着分类器可能和这些一样糟糕?
  • 假设对于公司来说事情已经很清楚了,总的来说,我认为从一个基本模型开始一个新问题总是一个好主意,这个模型可以在以后用作未来改进的基准。所以我认为这个决定没有任何问题,只要他们理解这意味着什么。作为旁注,从一个非常差的基线模型开始将使您未来的模型看起来更好;)

(请注意,我在学术界,所以我没有这样的直接经验)