橙色文本挖掘数据格式

数据挖掘 文本挖掘
2022-03-10 00:01:23

文本分类问题是否需要特殊的标题结构?

我正在尝试使用文本挖掘插件进行推文分类。我有一个 CSV 文件中的数据,其中一列标记为类别并包含我的两个类别,另一列包含推文的标记文本。

当我使用语料库小部件加载文件并遵循http://orange3-text.readthedocs.io/en/latest/widgets/bagofwords.html中给出的工作流程时,测试小部件会给出错误“训练数据输入需要类变量。”

我打开示例 bookexcerpts.tab 数据,发现它的标题结构与类别和文本不同。如果我修改我的推文 CSV 以匹配它似乎可以工作。这是一个错误,还是我错过了一步?

1个回答

不,与核心 Orange 相比,文本分类问题不需要特殊结构。

但是——这适用于核心 Orange 以及文本插件——如果您想执行分类,则必须将一个特征设置为类变量。否则 Orange 无法知道您想要预测哪个特征。默认情况下,当您从 CSV 读取数据时,不会选择任何特征作为类变量,因此不会选择消息。

有两种可能的方法可以将特征标记为类变量。正如您已经想到的那样,更永久的方法是修改数据文件本身。其次,对用户更友好一点,就是在 Orange 中执行此操作。为此,您只需将数据传递给 Select Columns 小部件,将所需的特征拖到 Target Variable 字段并单击 Send。小部件输出的数据将有一个类变量,可以传递给 Test & Score。以下方案应该可以在不修改文件头的情况下工作:

在此处输入图像描述

如果您想了解有关 Select Columns 小部件如何工作的更多信息,还可以查看其文档

所以简而言之,你错过了一步,发生了什么是意料之中的。如果标题没有说明某些特征是类变量——就像你的 CSV 一样——Orange 根本不会将任何特征标记为类变量。我们不使用任何启发式方法来猜测什么可能是类变量,而仅依赖于文件中写入的内容。