新闻文章的公共数据集及其关联类别,用于多标签数据分类

数据挖掘 数据集 大数据 多标签分类 文本分类
2022-02-26 06:19:47

我想知道是否有任何公共新闻数据集,如纽约时报 (NYT) 或类似于政治、娱乐、生活方式、一般新闻、体育等各种新闻类别。

我想用这样一个数据集对各种句子或段落进行多标签数据分类,即一个句子可能属于政治、娱乐、体育或所有,所以我需要数据集将数据分类为多个标签。我打算用这样的数据集训练一个分类器并将其用于预测。但是,我找不到任何东西。有没有这样的已知数据集可用?

我想要一个类似这样的数据集,但对于新闻类别: 在此处输入图像描述

1个回答

通过搜索“新闻类别”在Kaggle上找到了一个。我相信这个数据集应该适合你。它是一个 JSON 文件,其中包含文章链接、相关类别(例如“犯罪”)、标题、作者、日期和简短描述。

您可能还想查看 Open Data Stackexchange:

https://opendata.stackexchange.com/

享受!

https://www.kaggle.com/rmisra/news-category-dataset