A 数据集到底是什么?一个数据库是否包含超过 2 个表,计为 1 个或 2 个数据集?

数据挖掘 机器学习 数据集
2022-03-15 21:39:41

数据集(或数据集)是数据的集合。最常见的数据集对应于单个数据库表或单个统计数据矩阵的内容,其中表的每一列代表一个特定变量,每一行对应于相关数据集的给定成员。

看来iris数据集可以算作 1 个数据集。

包含超过 2 个表的数据库是否计为 1 个或 2 个数据集?

2个回答

数据集可能指有关特定主题的任何信息集合。即文件、excel文件、.txt文件等。

通常,我们使用以表格格式保存的数据集(如 .csv 文件),这种形式的数据集与表格完全一样,其中包含用于其特征名称的列(字段)和作为记录(样本)的行和每行的索引。一个问题可以使用多个数据集(表)来解决,但每个数据集都引用一个表(数据框)

无论格式是什么,为了使用,我们将数据集转换为表格(数据框)

这几乎是一个哲学问题。IMO 您可以将图书馆或照片集视为“一组数据”。那么什么是集合(https://en.wikipedia.org/wiki/Set_(mathematics))?集合是元素的集合(通常是非冗余的并且具有一定的内在逻辑)。虹膜数据就是一个很好的例子。

我看到一个数据库更像是一组集合。数据库是以结构化方式存储数据的工具(或机构,如果您愿意)。因此,在数据库中,您可以拥有任何类型的数据,但数据库会为您提供在哪里可以找到某些数据(集)的信息。

如果您有两个集合 A={1,2}, B={f,g},您可以将 A、B 视为数据集。如果您形成一组集合 L={A,B}={{1,2},{f,g}},您可以将其视为数据库。但是,数据库通常允许您重新排列数据,例如,您可以从 L 形成一个新的(数据)集,例如 C={2,f,g}。

从实际的角度来看:通常您使用存储在称为数据集的文件(csv、xls 等)中的结构化机器可读数据(表或数据框)。但是,在某些应用程序中,数据从数据库“流式传输”以使用它。但即使是来自数据库的流式数据也是数据库的(子)集。

所以关于你的问题:

一个数据库是否包含超过 2 个表,计为 1 个或 2 个数据集?

我根本不会将数据库视为数据集。它们在概念上是不同的 IMO。