我有包含某些项目的访问持续时间的数据。
示例:
t0~t5 为访问时长,1 表示该时长内访问过,0 表示未访问过。
ID,t0,t1,t2,t3,t4
0,0,0,1,1,1
1,0,1,1,1,1
2,0,1,1,0,0
3,1,1,0,0,1
4,1,1,0,0,1
在上面的例子中,组ID=0,1是我想要的。
ID=3,4不是因为它们的距离很短,而是它们不是连续的。
我试过了KMeans,DBSCAN它们都聚集ID=3,4成一个组,这是有道理的。但它没有做我想要的。
是否有任何可能的数据预处理来达到我想要的?
或者我应该使用其他分析工具?