数据挖掘 - NLP 面试编码任务 - 吾爱随笔录

请评论我为我正在寻找的数据科学 NLP 职位的候选人准备的以下 NLP 面试编码任务。目标是检查候选人对 NLP 中向量文本表示的基本作用的理解，以及检查候选人编码技能及其使用 Numpy 提供的向量化优化计算的能力。

我特别需要您对以下方面的意见：

任务明确吗？
在在线面试期间，任务是否足以在 20 -30 分钟内从头开始编写一个粗略的解决方案？
您会将这项任务分配给哪个级别——初级、中级或高级 DS NLP 工程师？

任务：

# Write from scratch (you can only use Numpy arrays) 
# very basic and simple algorithm to classify sentences:

test1 = "cats like meat and fish is best for cats"
test2 = "train your mind reading good fiction, thrillers and other books"

# Use these sentences to train your classifier:

# Class 1
sent1 = "meat is a good food for all dogs and cats , dogs also like apples"

# Class 2
sent2 = "reading fiction books is a good food for mind and some thrillers are not"

为了解决这个任务，候选人应该从头开始编写计数向量器和余弦相似度函数。使用这些候选函数可以找到测试句子与类 1 和 2 的相似性，从而对测试句子进行分类。规范化向量将是候选人的奖励。

我花了 20 分钟来编写、测试和描述这个任务。不确定 NLP 职位候选人可能需要多少时间。