数据挖掘 - 处理电话文本的一般方法（主题、承诺、情绪等） - 吾爱随笔录

处理电话文本的一般方法（主题、承诺、情绪等）

数据挖掘 nlp

2022-03-13 15:23:46

我有一个 NLP 任务。有一段文字（电话交谈）。语音已经转换为文本，分为座席和客户段落。我需要了解哪种方法最适合接下来的任务：

谁是客户，谁是代理？
顾客姓名
谈话的主题
运营商对客户的承诺（例如“我明天回电”）
负面情绪（如果对话中有订阅者不满意的内容）

我只是想了解如何处理它。是否有可能为此创建某种通用方法？如果是，我可以关注哪些包裹/出版物/书籍？

1个回答

一步步。

既然你说它分为 C 客户和 A 代理，我将假设它的标签（有些问题也可以在无人监督的情况下解决）

谁是客户，谁是代理？ 简单的二元分类。找到合适的文本数值模型表示并执行分类。起始参考
客户名称 命名实体识别 - NER示例如何使用它：

import nltk

from nltk.tag.stanford import NERTagger

st = NERTagger('stanford-ner/all.3class.distsim.crf.ser.gz', 'stanford-ner/stanford-ner.jar')
text = "blablabla"

for sent in nltk.sent_tokenize(text):
    tokens = nltk.tokenize.word_tokenize(sent)
    tags = st.tag(tokens)
    for tag in tags:
        if tag[1]=='PERSON': print tag`

话题从这两种方法开始：LDA和LSA
运营商向客户做出的承诺（例如，“我明天回电”）一般方法（它似乎是合理的，需要你做一些工作）但是假设你使用词嵌入，所有有承诺的句子都将是在这个高维空间中彼此接近的向量。您可以限制您的系统返回所有落入该空间中该集群的句子。
负面情绪（如果订阅者对对话中的某些内容不满意）只需看一下Emotion AI Nutshell 的介绍：您已经拥有可以在给定文本中模拟正面-中性-负面情绪的预训练模型。使用资源。

其它你可能感兴趣的问题

上一篇哪个更好：不平衡数据中的“N”或平衡数据中的“N+3”的 F1 分数？下一篇股票数据的图像分类