处理电话文本的一般方法(主题、承诺、情绪等)

数据挖掘 nlp
2022-03-13 15:23:46

我有一个 NLP 任务。有一段文字(电话交谈)。语音已经转换为文本,分为座席和客户段落。我需要了解哪种方法最适合接下来的任务:

  1. 谁是客户,谁是代理?
  2. 顾客姓名
  3. 谈话的主题
  4. 运营商对客户的承诺(例如“我明天回电”)
  5. 负面情绪(如果对话中有订阅者不满意的内容)

我只是想了解如何处理它。是否有可能为此创建某种通用方法?如果是,我可以关注哪些包裹/出版物/书籍?

1个回答

一步步。

既然你说它分为 C 客户和 A 代理,我将假设它的标签(有些问题也可以在无人监督的情况下解决)

  1. 谁是客户,谁是代理? 简单的二元分类。找到合适的文本数值模型表示并执行分类。起始参考

  2. 客户名称 命名实体识别 - NER示例如何使用它:

import nltk

from nltk.tag.stanford import NERTagger

st = NERTagger('stanford-ner/all.3class.distsim.crf.ser.gz', 'stanford-ner/stanford-ner.jar')
text = "blablabla"

for sent in nltk.sent_tokenize(text):
    tokens = nltk.tokenize.word_tokenize(sent)
    tags = st.tag(tokens)
    for tag in tags:
        if tag[1]=='PERSON': print tag`
  1. 话题从这两种方法开始:LDALSA

  2. 运营商向客户做出的承诺(例如,“我明天回电”)一般方法(它似乎是合理的,需要你做一些工作)但是假设你使用词嵌入,所有有承诺的句子都将是在这个高维空间中彼此接近的向量。您可以限制您的系统返回所有落入该空间中该集群的句子。

  3. 负面情绪(如果订阅者对对话中的某些内容不满意)只需看一下Emotion AI Nutshell 的介绍:您已经拥有可以在给定文本中模拟正面-中性-负面情绪的预训练模型。使用资源。