数据预处理:聚合、特征创建还是其他?

数据挖掘 数据挖掘 预处理
2022-02-21 19:14:53

我在命名数据处理步骤时遇到问题。

  1. 我有一个包含字符串或 null 的属性。如果为 null,我想将属性的记录更改为 0,如果不为 null,则更改为 1。什么预处理步骤名称?
  2. 我有一个包含 200 条推特用户推文的属性。我创建了一个新属性来描述 200 条推文中的 URL 比率(200 条推文中的 URL 数/200)。是聚合还是功能创建还是其他?
2个回答

您正在寻找名称来归因于列出的两个项目?对于 (1),我将其称为转换,因为它是直接映射,特征分布没有变化。处理数据时,请确保复制数据转换并且不要更改原始数据集。

对于(2),因为它是每个组的单个数字,这里的组是完整的数据集,我将其称为聚合。同样,如果您对每个用户进行了类似的计算。但是,如果您从每条记录的现有要素中计算出一个新值,这将是要素生成或创建。

我有包含字符串或 null 的属性。如果为空,我想将属性记录更改为 0,如果不为空,我想将记录更改为 1。什么预处理步骤名称?

这一步是虚拟编码

我有包含 200 条推特用户推文的属性。我创建了描述 200 条推文中的 URL 比率的新属性(200 条推文中的 URL 数/200)。是聚合还是功能创建还是其他?

特征聚合