如何使用时间采样数据(50 个样本/分钟)作为输入对输出进行分类

数据挖掘 机器学习 Python 时间序列 多类分类
2022-03-02 22:18:02

我正在研究一个分类问题,我拥有的数据是时间采样数据(50 个样本/分钟)。

  A1       A2     A3        A4     A5      A6       Time               OUTPUT
0.1808  -1.9547 1.0487  -0.1018 -0.2402 -0.216  2018-03-22 10:53:27:009 Walk
0.1808  -1.9547 1.0487  -0.1018 -0.2402 -0.216  2018-03-22 10:53:27:029 
0.1808  -1.9547 1.0487  0.0136  -0.2096 0.6761  2018-03-22 10:53:27:049 
1.0641  -1.1054 -1.7732 0.0136  -0.2096 0.6761  2018-03-22 10:53:27:069 
1.0641  -1.1054 -1.7732 0.0136  -0.2096 0.6761  2018-03-22 10:53:27:089 
1.0641  -1.1054 -1.7732 0.0136  -0.2096 0.6761  2018-03-22 10:53:27:109 
1.0641  -1.1054 -1.7732 0.0136  -0.2096 0.6761  2018-03-22 10:53:27:130 
1.0641  -1.1054 -1.7732 0.0136  -0.2096 0.6761  2018-03-22 10:53:27:149 
-0.1162 -1.462  -0.2147 -0.3992 -0.2146 0.4831  2018-03-22 10:53:27:169 
-0.1162 -1.462  -0.2147 -0.3992 -0.2146 0.4831  2018-03-22 10:53:27:189 
-0.1162 -1.462  -0.2147 -0.3992 -0.2146 0.4831  2018-03-22 10:53:27:209 
-0.1162 -1.462  -0.2147 -0.3992 -0.2146 0.4831  2018-03-22 10:53:27:229 
-0.1162 -1.462  -0.2147 -0.3992 -0.2146 0.4831  2018-03-22 10:53:27:249 
-2.6265 -1.1069 1.0123  -0.4758 -0.1737 0.4346  2018-03-22 10:53:27:269 
-2.6265 -1.1069 1.0123  -0.4758 -0.1737 0.4346  2018-03-22 10:53:27:289 
-2.6265 -1.1069 1.0123  -0.4758 -0.1737 0.4346  2018-03-22 10:53:27:309 
-2.6265 -1.1069 1.0123  -0.4758 -0.1737 0.4346  2018-03-22 10:53:27:329 
-2.6265 -1.1069 1.0123  -0.4758 -0.1737 0.4346  2018-03-22 10:53:27:349 
-1.7241 -1.0679 0.176   -0.4758 -0.1737 0.4346  2018-03-22 10:53:27:369 
-1.7241 -1.0679 0.176   0.2784  -0.1321 0.9571  2018-03-22 10:53:27:389 
-1.7241 -1.0679 0.176   0.2784  -0.1321 0.9571  2018-03-22 10:53:27:409 
-1.7241 -1.0679 0.176   0.2784  -0.1321 0.9571  2018-03-22 10:53:27:429 
-1.7241 -1.0679 0.176   0.2784  -0.1321 0.9571  2018-03-22 10:53:27:449 
-5.888  -0.4203 -0.4726 0.2784  -0.1321 0.9571  2018-03-22 10:53:27:469 
-5.888  -0.4203 -0.4726 0.4476  -0.2071 1.3086  2018-03-22 10:53:27:490 
-5.888  -0.4203 -0.4726 0.4476  -0.2071 1.3086  2018-03-22 10:53:27:509 
-5.888  -0.4203 -0.4726 0.4476  -0.2071 1.3086  2018-03-22 10:53:27:529 
-5.888  -0.4203 -0.4726 0.4476  -0.2071 1.3086  2018-03-22 10:53:27:549 
-1.3918 -1.7927 0.0591  0.4476  -0.2071 1.3086  2018-03-22 10:53:27:569 
-1.3918 -1.7927 0.0591  0.4476  -0.2071 1.3086  2018-03-22 10:53:27:589 
-1.3918 -1.7927 0.0591  0.6781  -0.4683 2.3528  2018-03-22 10:53:27:609 
-1.3918 -1.7927 0.0591  0.6781  -0.4683 2.3528  2018-03-22 10:53:27:629 
-1.3918 -1.7927 0.0591  0.6781  -0.4683 2.3528  2018-03-22 10:53:27:649 
 1.048  -2.1588 -1.3306 0.6781  -0.4683 2.3528  2018-03-22 10:53:27:669 
 1.048  -2.1588 -1.3306 0.6781  -0.4683 2.3528  2018-03-22 10:53:27:689 
 1.048  -2.1588 -1.3306 -1.0803 0.6924  -0.0053 2018-03-22 10:53:27:709 
 1.048  -2.1588 -1.3306 -1.0803 0.6924  -0.0053 2018-03-22 10:53:27:729 
 1.048  -2.1588 -1.3306 -1.0803 0.6924  -0.0053 2018-03-22 10:53:27:749 
 0.209  -0.2444 0.2241  -1.0803 0.6924  -0.0053 2018-03-22 10:53:27:769 
 0.209  -0.2444 0.2241  -1.0803 0.6924  -0.0053 2018-03-22 10:53:27:789 
 0.209  -0.2444 0.2241  -1.0803 0.6924  -0.0053 2018-03-22 10:53:27:809 
 0.209  -0.2444 0.2241  -0.8075 1.0533  -0.4522 2018-03-22 10:53:27:829 
 0.209  -0.2444 0.2241  -0.8075 1.0533  -0.4522 2018-03-22 10:53:27:849 
-1.1067 0.5311  4.2524  -0.8075 1.0533  -0.4522 2018-03-22 10:53:27:869 
-1.1067 0.5311  4.2524  -0.8075 1.0533  -0.4522 2018-03-22 10:53:27:889 
-1.1067 0.5311  4.2524  -0.8075 1.0533  -0.4522 2018-03-22 10:53:27:909 
-1.1067 0.5311  4.2524  -0.8075 1.0533  -0.4522 2018-03-22 10:53:27:929 
-1.1067 0.5311  4.2524  0.3808  0.5637  -0.2897 2018-03-22 10:53:27:949 
-1.3545 -0.0789 1.5372  0.3808  0.5637  -0.2897 2018-03-22 10:53:27:969 
-1.3545 -0.0789 1.5372  0.3808  0.5637  -0.2897 2018-03-22 10:53:27:989 
-1.3545 -0.0789 1.5372  0.3808  0.5637  -0.2897 2018-03-22 10:53:28:009 Run
-1.3545 -0.0789 1.5372  0.3808  0.5637  -0.2897 2018-03-22 10:53:28:029 
-1.3545 -0.0789 1.5372  0.3808  0.5637  -0.2897 2018-03-22 10:53:28:049 
 2.1886 -3.0297 -0.0356 1.453   -0.7246 1.5865  2018-03-22 10:53:28:069 
 2.1886 -3.0297 -0.0356 1.453   -0.7246 1.5865  2018-03-22 10:53:28:089 
 2.1886 -3.0297 -0.0356 1.453   -0.7246 1.5865  2018-03-22 10:53:28:109 
 2.1886 -3.0297 -0.0356 1.453   -0.7246 1.5865  2018-03-22 10:53:28:129 
 2.1886 -3.0297 -0.0356 1.453   -0.7246 1.5865  2018-03-22 10:53:28:149 
 2.4449 -2.6882 1.2072  1.453   -0.7246 1.5865  2018-03-22 10:53:28:169 
 2.4449 -2.6882 1.2072  -0.8857 1.3342  -1.6148 2018-03-22 10:53:28:189 
 2.4449 -2.6882 1.2072  -0.8857 1.3342  -1.6148 2018-03-22 10:53:28:209 
 2.4449 -2.6882 1.2072  -0.8857 1.3342  -1.6148 2018-03-22 10:53:28:229 
 2.4449 -2.6882 1.2072  -0.8857 1.3342  -1.6148 2018-03-22 10:53:28:249 
-1.3642 1.8139  1.3246  -0.8857 1.3342  -1.6148 2018-03-22 10:53:28:269 
-1.3642 1.8139  1.3246  -0.3441 0.2811  -0.2783 2018-03-22 10:53:28:289 
-1.3642 1.8139  1.3246  -0.3441 0.2811  -0.2783 2018-03-22 10:53:28:309 
-1.3642 1.8139  1.3246  -0.3441 0.2811  -0.2783 2018-03-22 10:53:28:330 
-1.3642 1.8139  1.3246  -0.3441 0.2811  -0.2783 2018-03-22 10:53:28:349 

我需要为每组 50 个样本分类是步行还是跑步

关于如何处理这个问题或如何将这 50 个样本作为输入并将其映射到单个输出然后训练模型的任何想法/建议,或者我可以使用任何其他方式或可以处理此类的算法的问题?

提前致谢

2个回答

尝试使用 LSTM-RNN 进行序列分类,这就是你的情况。

这是一个非常好的教程

我对您的数据的想法如下,它基于构建经典的 ML 分类问题。

要将其作为分类问题来解决,我们需要创建特征。这是我对创建功能的建议:如果我们正在运行,那么加速度计将具有更高的值。出于这个原因,对于每次步行/跑步,我都会使用加速度计绝对值的最大值作为特征。

如果这行得通,我会忘记陀螺仪数据。如果我必须使用它,我会将它们的差异作为一个特征,因为跑步时可能比走路时有更多的旋转。但是,通过使用加速度计功能,我认为应该足够了,逻辑回归模型应该可以工作。