我正在为将在 Keras 和 TensorFlow 中运行的神经网络准备功能。这些功能是在 Oracle 中生成的。在那里我还替换了空值。我没有对数据库进行规范化,因为这取决于所选样本。规范化将在 Python 中完成。对于我的用例,这是一个二元分类问题(欺诈检测),空值的存在也与目标变量相关。因此,我想为模型保留这些信息。
我的建议是创建一个名为的附加二进制列varName_isnull,该列对列中是否存在 Null 进行编码varName。在其他聚合特征中,此二进制列也将用于计算单位时间内特定分组(即信用卡)的 Null 值的数量。
我的提议合理吗?是否有任何替代表示,如果是,它们的优势是什么?