我正在尝试使用来自 paperwithcode.com 的 IG-3.5B-17k 数据集,但我不知道该怎么做。怎么做?我想我需要使用这个站点 API?我什至可以使用这个数据集吗?
如何操作paperswithcode.com的数据集?
数据挖掘
数据集
api
2022-02-24 02:44:59
1个回答
这是在paperswithcode.com(强调我的)的数据集描述中指定的:
IG-3.5B-17k 是用于训练图像分类模型的内部Facebook AI Research 数据集。它包含多达 35 亿张公共 Instagram 图片的标签。
所以数据集不是公开的。
然而,在论文中,作者认为这些图像及其标签在 Instagram 中是“可见的”:
我们的数据集有两个很好的属性:公共可见性和简单性。通过使用可公开访问的图像,我们实验中使用的数据对每个人都是可见的。要查看它的外观,可以通过https://www.instagram.com/explore/tags/上的标签浏览图像,然后是特定的标签;例如https://www.instagram.com/explore/tags/brownbear显示带有#brownbear 标记的图像。我们的数据也是从“野生”中获取的,基本上是按原样进行的,只需极少的努力对其进行清理。这使得数据集构建过程特别简单和透明。
我知道他们说“你可以自己去查询 Instagram”以查看数据集中的图像,但我认为这实际上并不实用,甚至在他们的服务条款中也不被允许。