仅基于高容量关键字预测搜索关键字是否低容量

数据挖掘 多标签分类 数据分析
2022-02-26 17:33:15

我的朋友在一次分析面试中被问到这个问题,我无法弄清楚答案,所以我想看看如何解决这个数据科学问题。这是问题所在:

假设关键字“超人”的搜索量为每月 25 万次。其他相关搜索词可以是“超人标志”(55k)、“蝙蝠侠大战超人”(60k)、“超人归来”(50k)等,用户使用这些词在某个国家/地区(例如美国)在 Google 中搜索某个主题。

但是,可能有数千个关键字中包含“超人”这个词,而且我们并不总是有许多这些关键字的准确数据,而且数量很少(少于 1000 个)。为了找到这些主题的数量,我们使用基于我们已经拥有的大量关键字数据的预测。例如,我们可以说“未来超人”这个词不会被很多人搜索,它的数量可以是中等的(接近 300)。

类似地,“超人形象”和“超人夹克”的搜索量中等,人们很少搜索的搜索量较低,例如“长袖超人衬衫”(100),然后是“廉价超人衬衫”或“超人”等词大学”,其音量将非常低。当我们只知道高容量关键字时,您能想出一种方法,如何通过使用一些逻辑将关键字分为“中”、“低”和“非常低”吗?

你的回答应该是描述性的并有理由支持。(提示-您的方法可能是对某些单词进行分类,如果存在这些单词会使关键字“低”音量或“非常低”音量。或者您的方法可以基于关键字中的单词数量,拼写,其中恰好出现一个术语在搜索过程中起作用的短语和其他常见的人类心理学中)。

1个回答

这看起来可以作为序数回归或使用折扣累积收益的排名

  • 当您尝试对具有某些固有顺序(如“中”、“低”和“非常低”)的类进行分类时,序数回归很有用。广泛用于心理学和市场营销,它是针对此特定问题的合适建模程序。实现相当复杂,但简而言之可以理解为重叠分布,可以理解为它们属于所述类的概率。R 有一个 Ordinal Regression 包

  • 另一个是排名,大多数机器学习包都包含折扣累积增益的形式,它是排名质量的衡量标准,通常用于衡量网络搜索引擎算法或相关应用程序的有效性。xgboost 中,它被发现为 rank:ndcg。

  • 一种简单但也可以准确的方法是简单的多类分类。关于顺序的信息不会包含在算法中,但令人惊讶的是,它在这类问题中的结果是相似的,因为像神经网络这样的底层算法现在非常强大,特别是当你有一个大数据集时。