我在分析分类问题时需要帮助。
给定一组日期(小组:最多 20 个元素),我想将平均分布的日期分组(有公差)。例如,它可以是每月或每周分开的日期。
问题是我是开发人员,而不是数据科学家。我有一种直觉,应该可以进行某种回归。
我不知道如何分析这个问题。你能帮我吗?
干杯
PS:我已经看过这个帖子(Recurring events - find in a time series)但我没有帮助我。
我在分析分类问题时需要帮助。
给定一组日期(小组:最多 20 个元素),我想将平均分布的日期分组(有公差)。例如,它可以是每月或每周分开的日期。
问题是我是开发人员,而不是数据科学家。我有一种直觉,应该可以进行某种回归。
我不知道如何分析这个问题。你能帮我吗?
干杯
PS:我已经看过这个帖子(Recurring events - find in a time series)但我没有帮助我。
如果是分类问题,那么您应该寻找分类算法,而不是回归技术。最简单的分类算法是逻辑回归。
但是从外观上看,您似乎没有标记的数据集,如果是这种情况,您应该寻找聚类技术。聚类是 ML 中无监督学习技术的一部分,它创建相似数据点的集群或组。
您可以使用聚类算法将较近的日期聚类在一起。但是由于您提到要聚集的日期数不会超过 20,似乎您可以创建一个简单的逻辑将它们组合在一起。
选择一个可以是任何日期的基准日期,并找到从基准日期到数据集中每个日期的天数/周数/月数。你现在会得到一堆数字。您现在可以根据您喜欢的阈值将它们存储在一起。
尽管聚类算法也会这样做。将根据最佳截止值自动处理阈值。尝试最简单(阅读:易于理解)的聚类算法:K-Means。
我认为这不是机器学习可以解决的问题。我想不出任何可以在这里工作的集群。我本能的方法是去除数据的趋势,然后使用傅里叶变换来评估循环频率。然后将这些点分类为在那里识别的模式的一部分应该相当简单,并且其他所有内容都可以放入“其他”桶中。