同一笔记本中的多个模型

数据挖掘 训练 朱庇特 管理
2022-03-03 00:18:17

在处理数据集之后,有时我们希望跟踪具有不同架构的多个模型,这些模型在我们已经进行了一些转换和数据预处理的同一数据集上工作。

所以我想知道在使用相同数据集的多个模型上工作的优雅方式是什么?因为在同一个笔记本上拥有​​多个模型很麻烦,并且在不同的笔记本上重新创建相同的数据预处理和转换也是很多复制粘贴,我认为可以通过一些我不知道的现有解决方案来解决。执行此类任务时的行业标准是什么?

任何帮助表示赞赏。

1个回答

如果我遇到你的情况,我会这样处理:

  • 创建一个“预处理”/“数据”模块

该模块可以是一个简单的数据访问层,可以在笔记本之间共享,也可以包括您可以添加的预处理步骤。这在笔记本上强制执行公共数据访问层,而不必复制代码。

所以你可以做这样的事情:

from data_layer import Data, Preprocessor

preprocessor = Preprocessor(**kwargs)
data = Data(preprocessor = preprocessor, **kwargs)

在理想情况下,您应该能够将数据访问层定义为数据本身。例如,包含数据源和预处理选项的 JSON 文档。

  • 为每个模型创建不同的笔记本

在这种情况下,如果您的模型共享组件,我还会创建它们都可以从中导入的模块。与您使用sklearntorch组件的方式相同。