数据挖掘 - 仅基于高容量关键字预测搜索关键字是否低容量 - 吾爱随笔录

我的朋友在一次分析面试中被问到这个问题，我无法弄清楚答案，所以我想看看如何解决这个数据科学问题。这是问题所在：

假设关键字“超人”的搜索量为每月 25 万次。其他相关搜索词可以是“超人标志”（55k）、“蝙蝠侠大战超人”（60k）、“超人归来”（50k）等，用户使用这些词在某个国家/地区（例如美国）在 Google 中搜索某个主题。

但是，可能有数千个关键字中包含“超人”这个词，而且我们并不总是有许多这些关键字的准确数据，而且数量很少（少于 1000 个）。为了找到这些主题的数量，我们使用基于我们已经拥有的大量关键字数据的预测。例如，我们可以说“未来超人”这个词不会被很多人搜索，它的数量可以是中等的（接近 300）。

类似地，“超人形象”和“超人夹克”的搜索量中等，人们很少搜索的搜索量较低，例如“长袖超人衬衫”（100），然后是“廉价超人衬衫”或“超人”等词大学”，其音量将非常低。当我们只知道高容量关键字时，您能想出一种方法，如何通过使用一些逻辑将关键字分为“中”、“低”和“非常低”吗？

你的回答应该是描述性的并有理由支持。（提示-您的方法可能是对某些单词进行分类，如果存在这些单词会使关键字“低”音量或“非常低”音量。或者您的方法可以基于关键字中的单词数量，拼写，其中恰好出现一个术语在搜索过程中起作用的短语和其他常见的人类心理学中）。