今天我刚遇到上司提出的一个非常独特的要求。他问我是否可以在收集数据进行训练之前先制作模型,因为我们还没有任何数据。
我完全不知道该怎么办。有没有人有任何建议我应该如何在没有任何数据的情况下进行建模?谢谢
是否可以在没有任何数据的情况下决定模型?
数据挖掘
数据科学模型
模型选择
2022-03-07 06:14:56
2个回答
对于现在想要构建数据科学应用程序和其他与数据相关的东西,但没有足够的历史数据(或根本没有)的现实世界的公司来说,这并不是一个很奇怪的情况。
在这种情况下,定义什么是模型可能会对您有所帮助,因此:
- 您/您的上级是否只考虑机器学习模型?在这种情况下,您需要使用数据进行训练
- 您是否还首先考虑使用不太复杂的方法,例如基于规则的模型?在这种情况下,您可以在直接进入需要数据的机器学习管道之前根据业务知识生成(即对其进行编程)此类规则
另一个选项,我曾经用来提前检查一些想法(在获得数据之前)是根据您知道在不久的将来可能拥有的已知数据分布来模拟一些数据;例如,您可能想要模拟存储在某些开放数据平台中的其他银行的客户年龄、客户账户金额……。
在这种情况下,您可以使用例如核密度估计器对数据进行建模
,然后生成一些合成样本。您可以在下面找到我曾经在类似情况下所做的事情,其中橙色条是检索到的开放数据,其变量类似于我最终在公司中拥有的变量(在这种情况下,我需要每个婚姻状况的年龄,我找到了对于类似国家的银行)并用于生成内核密度数据生成器(蓝线):
那么你必须首先考虑什么类型的数据,算法的类别,以及你将做机器学习的哪个分支......例如:
- 股票的无监督时间序列
- 图像的监督分类
- 等等
在此之后,您可以为您的用例选择一些合适的算法(例如回归、随机森林或其他合适的方法),然后生成一些模拟数据,一旦您拥有这些数据,这些数据将大致近似。
然后,您可以在模拟数据集上训练和测试模型,为收集真实数据做准备。
在这个阶段,听起来您需要收集有关用例的更多信息,以便了解开发方向。
