请评论我为我正在寻找的数据科学 NLP 职位的候选人准备的以下 NLP 面试编码任务。目标是检查候选人对 NLP 中向量文本表示的基本作用的理解,以及检查候选人编码技能及其使用 Numpy 提供的向量化优化计算的能力。
我特别需要您对以下方面的意见:
- 任务明确吗?
- 在在线面试期间,任务是否足以在 20 -30 分钟内从头开始编写一个粗略的解决方案?
- 您会将这项任务分配给哪个级别——初级、中级或高级 DS NLP 工程师?
任务:
# Write from scratch (you can only use Numpy arrays)
# very basic and simple algorithm to classify sentences:
test1 = "cats like meat and fish is best for cats"
test2 = "train your mind reading good fiction, thrillers and other books"
# Use these sentences to train your classifier:
# Class 1
sent1 = "meat is a good food for all dogs and cats , dogs also like apples"
# Class 2
sent2 = "reading fiction books is a good food for mind and some thrillers are not"
为了解决这个任务,候选人应该从头开始编写计数向量器和余弦相似度函数。使用这些候选函数可以找到测试句子与类 1 和 2 的相似性,从而对测试句子进行分类。规范化向量将是候选人的奖励。
我花了 20 分钟来编写、测试和描述这个任务。不确定 NLP 职位候选人可能需要多少时间。