给定加权序列,预测二元目标变量的合适模型是什么?
序列将相当短,通常在 ~ 1 到 5 个元素之间。
图解示例
假设我有以下类别:A, B, C, D.
每个类别的权重可以介于 0 和 1 之间。
示例序列:
A (0.33),B (0.71),C (0.0),D (0.95)=> 1C (0.21),A (0.67)=> 0B (0),D (1)=> 1
给定加权序列,预测二元目标变量的合适模型是什么?
序列将相当短,通常在 ~ 1 到 5 个元素之间。
图解示例
假设我有以下类别:A, B, C, D.
每个类别的权重可以介于 0 和 1 之间。
示例序列:
A (0.33), B (0.71), C (0.0), D (0.95) => 1C (0.21), A (0.67)=> 0B (0), D (1)=> 1一种选择是模型比较方法。从更简单的模型开始,然后逐步尝试更复杂的模型。在此过程中,检查额外的复杂性是否会导致预测能力的提高。
然后通过逐步回顾更多的时间步来开始放松马尔可夫假设。
如果您有数千个标记数据点并且关系非常复杂,则循环神经网络 (RNN) 可能会起作用。
长短期记忆(LSTM)没有多大意义,因为序列很短。当相关信息可能向后退很多时间时,LSTM 可以更好地工作 RNN。
我的假设是,朴素贝叶斯分类器将是一个足够好的模型,因为只有 4 个特征并且序列非常短,可以忽略不计。
我认为它们是很多有效的方法。
我将首先测试一个简单的密集神经网络架构。
你可以有2 * number_of_sequences输入神经元,每一对是一个用于权重的神经元和另一个用于序列存在的神经元(0:不存在和1:存在)。
隐藏层取决于复杂性。
输出0或1使用 sigmoid。