CN109389418A

CN109389418A - 基于lda模型的供电服务客户诉求识别方法

Info

Publication number: CN109389418A
Application number: CN201810938775.1A
Authority: CN
Inventors: 卜晓阳; 王宗伟; 金鹏; 赵郭燚; 杨菁; 刘鲲鹏; 宫立华; 朱龙珠
Original assignee: State Grid Co Ltd Customer Service Center
Current assignee: State Grid Co Ltd Customer Service Center
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2019-02-26

Abstract

本发明涉及模式识别的方法，具体涉及一种基于LDA模型的供电服务客户诉求识别方法。识别方法包括如下过程：文本预处理：将工单中的文本进行文本分词及文本量化，主要对文本长内容按照一定的规则进行切分；LDA主题生成：在全量样本中随机选择样本作为训练样本和测试样本，通过对训练样本的训练得到性能参数，再通过测试样本进行测试并得出识别率较高的性能参数，运用性能参数生成识别文本对工单中包含的客户诉求识别；自动化文本分类。本发明的优点在于：本方法提出利用LDA主题模型运用在全量客服工单中识别多个客户诉求，对文本数据充分挖掘并应用到实际工作中。

Description

基于LDA模型的供电服务客户诉求识别方法

技术领域：

本发明涉及模式识别的方法，具体涉及一种基于LDA模型的供电服务客户诉求识别方法。

背景技术：

随着互联网+、大数据、云计算等信息技术飞速发展，大部分信息已经由纸质载体过渡到电子载体，而在这些信息中，大部分是非结构化或半结构化的文本信息。如何有效管理、挖掘、分析海量非结构化数据中蕴藏的信息，已成为大数据领域的重挑战。在非结构化数据中，文本数据占据重要地位。对于拥有大量文本数据的企业，如何有效的利用这部分数据资源决定着企业将来的发展。在电力行业客服中心的数据中，如何对工单数据进行处理，从而精准的识别工单中客户的诉求，甚至挖掘隐含诉求同时及时的发现新增突增诉求，这对提升服务的质量及客户的满意程度至关重要。

对文本数据中信息的挖掘常用的方法主要有两种，一种是早期的空间向量模型，数据基础是基于线性代数的几何变化，主要通过空间向量的形式表示非结构化和半结构化的数据，将文本数据表示为数学上可分析处理的形式，但存在一个问题就是文档特征向量具有惊人的维度，且占用内存较大，运行效率较低，如果使用此方法，需要进行合理的降维，但是由于每个文本特征向量维数不一致，一定程度上增加了数学处理的难度。另外一种是主题模型，依据的数学基础是概率统计的分布模型，主要是对文档内容的潜在模式的挖掘，且有良好的数学基础和灵活的拓展性，其中基于LDA模型对文本数据的挖掘更是得到广泛应用，此模型作为一种能够自动确定隐含主题的个数，拥有很好的主题适应能力。

在电力客户的工单中，每条工单的客户诉求并不全是单一诉求，精确识别每条工单的全部诉求尤为重要；在机器学习分类的文本分类技术中，机器学习分类算法只能识别单个诉求，无法满足一条工单含有多个诉求的情况，而主题模型中LDA模型对于文本中多个主题可以自动准确的识别，故本发明创新性的将LDA模型与工单数据进行结合，精准识别每条工单中客户的全部诉求。

发明内容：

本发明主要基于LDA模型对供电服务客户工单中的文本数据进行诉求识别，通过LDA模型对处理后的文本数据进行挖掘分析，识别工单中客户全部诉求，以便准确定位各客户的在用电方面的问题，从而使客服中心更加精确的进行服务，提升服务质量，进而提高客户的用电满意度。

工单中对于客户诉求的记录由客服人员加工转换记录，文本内容较长，没有很好的简化统一，存在同一工单有多个诉求的工单，且同一诉求的记录方式也有所差异。

基于LDA模型的供电服务客户诉求识别方法，包括文本预处理， LDA主题生成模型，文本自动分类。文本预处理阶段分两步，一步是文本分词，二是文本量化；依据LDA主题生成模型的过程中，通过训练文本的θ和p(θ)，θ为主题向量机标识每列每个主题在文档中出现的概率，p(θ)为主题向量θ的Dirichlet分布，再得出两个控制参数α和β，α为p(θ)分布的参数，用于生成一个主题θ向量：β为各个主题对应的单词概率分布矩阵p(w|z)，通过控制参数α和β就确定了主题模型，模型生成识别文本的算法如下：(1)选定一个主题向量θ，确定每个主题被选择的概率；(2)从主题向量θ中选择一个主题z，按主题z的词概率分布生成一个词，该词即为识别文本；对未识别的停电工单进行抽取并生成测试文本，通过人为对测试文本进行停电原因识别，对得出的控制参数α和β是否合理进行调试。由于需人为判定α和β是否合理，有一定局限性，在测试样本中，识别的主题可以概括95％以上的工单，并对全量工单依据分类算法模型及词库和所有主题实现自动化文本分类。

一种基于LDA模型的供电服务客户诉求识别方法，包括如下过程：

步骤1：文本预处理：将工单中的文本进行文本分词及文本量化，主要对文本长内容按照一定的规则进行切分；

步骤2：LDA主题生成：在全量样本中随机选择样本作为训练样本和测试样本，通过对训练样本的训练得到性能参数，再通过测试样本进行测试并得出识别率较高的性能参数，运用性能参数生成识别文本对工单中包含的客户诉求识别；

步骤3：自动化文本分类：最后根据识别的主题及对应的词库，结合分类算法对全量客服工单实现自动化的分类。

优选方案，所述步骤2具体过程为：

将文档集中每篇文档的主题以概率分布的形式给出，即一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”，一篇文档中，每个词语出现的概率为：

矩阵表示为：

其中:

“文档-词语”:矩阵表示每个文档中每个单词的词频，即出现的概率；

“主题-词语”:矩阵表示每个主题中每个单词的出现概率；

“文档-主题”:矩阵表示每个文档中每个主题出现的概率；

先选定一个主题向量θ，确定每个主题被选择的概率；然后生成每个单词的时候，从主体分布向量θ中选择一个主题z，按主题z的单词概率分布生成一个单词；

LDA的联合概率为

其中：

θ是主题向量，向量的每一列表示每个主题在文档中出现的概率，该向量为非负的归一化向量；

p(θ)：θ的分布，具体为Dirichiket分布；

N：要生成的文档的单词个数；

w_n：生成的第n个单词w；

z_n：选择的主题；

p(z|θ)：给定θ时主题z的概率分布；

p(w|z)：给定主题z时单词w的分布。

步骤3中的优选方案为：SVM分类算法。SVM方法巧妙的地方在于：应用核函数的展开定理，就不需要知道非线性映射的显式表达式；由于是在高维特征空间中建立线性学习机，所以与线性模型相比，不但几乎不增加计算的复杂性，而且在某种程度上避免了“维数灾难”。这种算法在与LDA主题模型进行结合，可以很好的解决诉求主题中对应词库中的词较多时产生的高维度问题，从而实现对新的工单数据进行自动分类的效果。

本发明的优点在于：

(一)本方法提出利用LDA主题模型运用在全量客服工单中识别多个客户诉求，对文本数据充分挖掘并应用到实际工作中。

(二)把LDA模型与分类算法进行结合，实现对工单数据的的自动化分类。

附图说明：

图1是LDA识别模型中的模型训练流程图。

图2是本发明方法流程图。

具体实施方式：

实施例：

一种基于LDA模型的供电服务客户诉求识别方法，本方法针对全量客户工单进行自动化识别客户诉求，并形成客户诉求体系，以实现及时的侦查识别新增诉求与及时预警服务风险的目的，为提前制定服务策略提供依据；包括如下步骤：

步骤1：文本预处理：将工单中的文本进行文本分词及文本量化，主要对文本长内容按照一定的规则进行切分，剔除停用词；停用词是指对文本分析无影响的语气助词、量大且无效的词汇、标点符号等等，通过文本预处理形成专业词库和同义词库，以便提高对新数据进行分词的准确性和有效性；

通过在本项目中调用封存的jar包，该包中通过开发的java程序一方面实现分词工具的调用，在调用ICTCLAS分词工具，为保证分词结果准确和有效性，加入电力行业专业词库和同义词库，比如专业词‘三相不平衡’、‘三相负荷’、‘三相平衡’均统一定义为同义词‘三相问题’，专业词‘时间不要这么长’、‘时间过长’、‘时间跨度长’、‘时间太长’、‘时间长’均统一定义为同义词‘时间过长’等等，最终完善形成2835个电力专业词，以及1305个同义词。

步骤2：LDA主题生成：在全量样本中随机选择1万条样本作为训练样本和测试样本，通过对训练样本的训练得到性能参数，再通过测试样本进行测试并得出识别率较高的性能参数，运用性能参数生成识别文本对工单中包含的客户诉求识别；比如工单内容为‘客户来电反映上址变压房没电，导致一带停电，要求我局尽快派员核查处理，联系人：毕先生，联系电话：15915950746’，通过文本预处理，最后分词结果为‘处理’、‘导致’、‘电话’、‘多户停电’、‘反映’、‘核查’、‘来电’、‘要求’，通过TF-IDF文本量化后分别为0.069、0.144、0.679、0.109、0.050、0.085、0.051、0.082，通过LDA主题生成‘导致-多户停电’，最后形成的客户诉求为‘多户停电’。

本实施例中，由于数据量较大，故在全量样本中随机选择1万条样本，依据LDA模型识别工单中包含的客户诉求，结合业务知识及逻辑，定义各个主题的业务意义，形成客户诉求热点体系表，以及各诉求热点对应的应用于分词中的词库。

LDA方法生成的文档可以包含多个主题，该模型使用下面的算法生成一个文档：

Choose parameterθ～p(θ)；

For each of the N words:

Choose a topic～p(z|θ)；

Choose a word～p(w|z)；

其中：

p(θ)：θ的分布，具体为Dirichiket分布；

N：要生成的文档的单词个数；

w_n：生成的第n个单词w；

z_n：选择的主题；

p(z|θ)：给定θ时主题z的概率分布；

p(w|z)：给定主题z时单词w的分布；

主题模型主要解决的问题为如何生成主题。

所述步骤2具体过程为：将文档集中每篇文档的主题以概率分布的形式给出，即一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”，一篇文档中，每个词语出现的概率为：

矩阵表示为：

其中:

“主题-词语”:矩阵表示每个主题中每个单词的出现概率；

“文档-主题”:矩阵表示每个文档中每个主题出现的概率。

先选定一个主题向量θ，确定每个主题被选择的概率。然后生成每个单词的时候，从主体分布向量θ中选择一个主题z，按主题z的单词概率分布生成一个单词。

LDA的联合概率为

LDA的三层表示如下：

(一)α和β：语料级别的参数，也就是每个文档都一样，因此生成过程只采样一次。

(二)θ：文档级别的变量，每个文档对应一个θ，也就是每个文档产生各个主题z的概率是不同的，所有生成每个文档采样一次θ。

(三)z和w：单词级别变量，z由θ生成，w由z和β共同生成，一个单词w对应一个主题z。

故LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β，学习出了这两个控制参数就确定了模型，便可以用来生成文档。

步骤3：自动化文本分类：最后根据识别的主题及对应的词库，结合SVM分类算法对全量客服工单实现自动化的分类，比如说多户停电诉求主题对应的词库包含‘处理’、‘导致’、‘电话’、‘多户停电’、‘反映’、‘核查’、‘来电’、‘要求’，同时结合包含多户停电诉求主题的其他工单进行丰富词库，最终形成各个诉求主题分别对应各自词库；之后结合SVM分类算法对全量客服工单实现自动分类，以及当新的工单数据产生之后，也可结合分类算法，对新产生的工单数据进行分类，以识别客户诉求。

结合LDA模型与SVM分类算法，可在某种程度上避免了“维数灾难”。通过与LDA主题模型进行结合，可以很好的解决诉求主题中对应词库中的词较多时产生的高维度问题，从而实现对新的工单数据进行快速的自动分类效果。

Claims

1.一种基于LDA模型的供电服务客户诉求识别方法，其特征在于，包括如下过程：

2.根据权利要求1所述一种基于LDA模型的供电服务客户诉求识别方法，其特征在于，所述步骤2具体过程为：

矩阵表示为：

其中:

“主题-词语”:矩阵表示每个主题中每个单词的出现概率；

“文档-主题”:矩阵表示每个文档中每个主题出现的概率；

LDA的联合概率为

其中：

p(θ)：θ的分布，具体为Dirichiket分布；

N：要生成的文档的单词个数；

w_n：生成的第n个单词w；

z_n：选择的主题；

p(z|θ)：给定θ时主题z的概率分布；

p(w|z)：给定主题z时单词w的分布。

3.根据权利要求1或2所述一种基于LDA模型的供电服务客户诉求识别方法，其特征在于，所述步骤3中的分类算法为SVM分类算法。