数据挖掘 - 适合测试机器学习算法的样本数据集 - 吾爱随笔录

数据挖掘数据集聚类

2022-02-12 17:14:31

我是机器学习的新手，我刚刚遇到了 sci-kit 包。在这个有趣的页面上，有许多用于测试不同聚类算法的玩具数据集。每个数据集都有一个独特的模式，并且根据数据集，一些算法的性能比其他算法更好。

我想问为什么选择这些数据集作为算法的测试？它们适合用于测试的特性是什么？是否有任何其他具有共同属性的数据集用于相同目的？他们有一些我可以阅读更多的名字吗？

谢谢你。

1个回答

您正在谈论的玩具示例或常见数据集之所以如此，是因为它们易于可视化和使用。它们的简单性有助于初学者训练不需要太多计算的简单模型。数据集结构的简单性允许在较低维度上可视化数据。

将它们用作测试数据集的原因是它们为我们提供了快速的健全性检查，以查看算法是否执行。您提供的链接专门用于集群问题。因此，可以在 2D 平面上轻松可视化的数据集将是一个简单的数据集，可以通过检查来检查算法的性能。如果它是一个复杂的数据集，例如人脸数据集，则很难通过可视化和检查来评估模型的性能。

此类数据集的一些示例：

MNIST 数据集 - 用于训练分类网络以在测试期间识别数字类别的手写数字集合。

Cifar-10：收集现实世界中 10 类物体（例如汽车和鸟类）的 RGB 图像。

Cifar-100：Cifar-10 的升级版。包含来自 100 个类别的图像

其它你可能感兴趣的问题