我们正在尝试建立一个模型,收集特定的酒店预订数据,试图找出酒店的预订方式、住宿方式、住的类型、平均每天的预订量。预订可能会从工作日到周末、冬季到夏季、正常日和假期期间有所不同。所有这些因素都是有责任的。
然后,随着时间的推移,我们想知道预订是否变得异常,例如通常年轻夫妇预订酒店很多,突然间,一群商务人士入住了几天。
由于在这种情况下,我们没有正常和异常的样本/标签,因此我们开始考虑使用无监督学习,例如聚类。比如说,我们构建了一个样本(每周的预订功能),可以追溯到年初。然后,我们尝试对它们进行聚类,然后,我们每周计算当前周,看看它是否属于任何聚类?或者是异常点突出需要注意。
这是一种合理的方法还是有更好的方法?