估计构建机器学习模型的工作量

数据挖掘 机器学习
2022-03-11 21:44:43

我知道这取决于问题和各种其他因素,例如数据可用性、用例的复杂性、开发人员的工作量等,但是有人可以建议对构建最小可行产品的工作量进行估算。

在准备工作量估计(接近 3 个月)以基于两个问题定义(客户不提供样本数据)构建价格预测模型时,我考虑了以下参数,该模型将与 Web 界面集成。

数据加载和预处理 - 1 周 模型开发 - 2.5 个月 部署 - 2 周。

不知道是高估还是低估。

注意:请不要以“太宽泛”的评论结束,因为我没有太多/无法提供更多信息。征求专家意见。

2个回答
  • 数据加载和预处理:根据您的数据大小,这是一个高度可变的度量。我们可以同意,这将是第二长的任务。

编辑对我来说,这个阶段是关于收集相关列并构建一个 csv 文件以在 python 环境中读取和加载。

  • 模型开发:同样,这将在很大程度上取决于您的数据(我指的是数据的复杂性和结构而不是大小),如果您手头有很多功能,并且您的问题很复杂(需要很多在特征工程和特征选择方面的努力),这将是手头最长的任务,可能会占用你大部分时间
  • 我会说部署需要像你提到的那样在几周内完成,这取决于你的生产环境的复杂性(再次是的)。

轻视我的陈述,因为我在这个领域没有太多经验。我有机会将一些模型部署为 Web 服务,而且花费的时间比您的预测要少。然而,我们的问题完全不同..所以我的数字可能不匹配。

数据科学中有一种叫做 80/20 规则的东西。它来自调查显示,数据科学家通常将 80% 的时间用于收集和清理数据,而仅将 20% 用于实际使用它来构建模型和其余部分。

没有人能告诉你每一步需要多长时间,因为这取决于你的情况。但我可以告诉你,1 周/2.5 个月与 80/20 相差很大,我认为你应该考虑重新校准这两个,但只有你知道事实。

您可以在此调查中了解更多信息:CrowdFlower 数据科学报告 2016 - 查看名为“数据科学家如何度过一天”的部分