从大量搜索中收集 Google 结果的数量。

数据挖掘 数据集 搜索 谷歌
2022-03-05 19:03:58

我正在尝试使用 Google 构建一个简单的数据集,主要是因为它似乎是我想要的最佳选择。

我想衡量一大群科学家的名声。快速的方法是在搜索他们的名字时测量谷歌结果的数量。我不关心结果,只关心他们的数量。我知道这种方法有缺陷,所以我不反对另一种方法。

我的科学家数据由数千个条目组成。这导致了问题。我试图以编程方式搜索谷歌,但不到 1000 次搜索后他们阻止了该程序。我还查看了他们的搜索 API,但每天最多搜索 100 次,除非我支付更多费用,但由于我是一名贫穷的大学生,这不是一个选择。

我希望这里的某个人能够提供有关以某种方式衡量名声的数据集的建议。

2个回答

对于任何搜索引擎,您都会受到请求数量的限制,并且任何超出这些限制的方式都将成为违反最终用户协议的灰色地带(当然,最终您会被禁止一段时间)。您应该研究已知搜索引擎的搜索 API,例如,Bing 每月免费为您提供 5000 次搜索 - 对于概念研究的证明 - 可能就足够了。此外,5k/month 将给你大约 20-30k 直到夏天,所以你的数据集会变得更大,同时你会完善你的想法。

此外,Google 的免费层级搜索限制为每天 100 个请求。这也为您提供每月完全合法的 3k。结合起来(假设您将 Google 和 Bing 结果视为平等),您每月可获得 8k。

必应搜索 API提到它在2016 年 12 月 31 日之后不可用。