我想训练一个机器学习模型,它有几个特征作为 X[] 的输入和一个输出作为 Y。例如,每个样本都有一个这样的数据框:X[0], X[1], X[2], X[3], X[4], Y
假设一个样本如下数据只有一个值:X[0], X[1], X[2], X[4], Y这是正常的机器训练问题。
但是现在,如果我想设置 X[3] 多个值,例如示例 1 数据是:
X[0] | X[1] | X[2] | X[3] | X[4] | Y
10 | 5 | 6 | [10, 20, 30, 40, 50] | 7 | 90
样本 2 中的数据为:
X[0] | X[1] | X[2] | X[3] | X[4] | Y
11 | 7 | 5 | [20, 30, 40, 50, 60] | 3 | 80
这是否可以遵循正常的机器训练过程并获得一个模型,该模型可以使用其他示例计算样本,例如:
X[0] | X[1] | X[2] | X[3] | X[4] | Y
10.5 | 6 | 5.5 | [15, 25, 35, 45, 55] | 5 | ???
如果每个 X[3] 的长度不长,则可以将 X[3] 划分为多个新特征,但如果 X[3] 的长度很长(len > 1000)且分布不同,则使得二进制也导致了太多的新特性。有什么方法可以直接处理 X[3] 而不添加新功能?
非常感谢您的帮助。