CN108492118B

CN108492118B - 汽车售后服务质量评价回访文本数据的两阶段抽取方法

Info

Publication number: CN108492118B
Application number: CN201810287210.1A
Authority: CN
Inventors: 廖伟智; 曹奕翎; 阴艳超; 严伟军; 张强
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2020-09-29
Anticipated expiration: 2038-04-03
Also published as: CN108492118A

Abstract

本发明公开了一种汽车售后服务质量评价回访文本数据的两阶段抽取方法，其包括对汽车售后服务质量评价回访文本数据进行文本预处理，对文本数据进行词性标注处理，对文本数据的每个评价进行依存句法分析处理，提取文本数据的三元组信息，并作为一个标签，对标签进行补充标注处理，采用GRU模型对词向量、词性和依存句法特征提取标签，对提取的标签进行聚类、去重处理，得到精确抽取结果。本发明采用无监督和有监督的方式，既减少了许多数据标注的人力又具备了较高的精确度，实现了更精确的对售后满意度建模、评价，并能帮助人工更好设计评价指标。

Description

汽车售后服务质量评价回访文本数据的两阶段抽取方法

技术领域

本发明属于数据分析技术领域，具体涉及一种汽车售后服务质量评价回访文本数据的两阶段抽取方法。

背景技术

传统的售后客户满意度评价以客户满意度、客户期望、客户抱怨、客户忠诚、感知质量、感知价值、企业形象以及品牌形象等几大类为主要特征变量，建立客户满意度测评模型。典型的评价客户满意度的方法主要有：计量经济学测评方法、模糊综合评价法、主成分分析法和灰色***方法等。

本发明结合汽车行业的售后文本大数据，并借用了人工智能中的中文文本情感分析技术，通过对文本数据进行分析，直接抽取出客户对服务具体的、细粒度评价对象及对应的观点，比如“发动机性能很好”。这种方法既能非常客观、具体地表征出服务的满意度，又能够辅助人工更好设置评价标准。

细粒度评价对象及观点抽取在中文文本情感分析中属于情感元素抽取，又被称为细粒度情感分析。具体的，评价对象是指文本中被讨论的主题，具体表现为文本中评价表达所修饰的对象；评价观点抽取主要针对显式情感表达的文本，是指文本中代表情绪、情感、意见或其他个人状态的主观表述，通常以词语或短语形式出现，如“非常漂亮”，“不高兴”。由于评价对象和评价观点紧密联系，并且可以按照序列标注任务进行识别，尽管两者可以作为独立的任务，但采用联合识别模型会更好的结合两者的信息。

目前用来抽取评价观点和评价对象的方法主要分为两种：基于句法规则匹配的方法和基于机器学习的有指导学习算法。基于句法规则匹配的方法利用自然语言处理中的依存句法理论，获取评价观点(即情感词)与评价对象的关系，并抽取评价对象-情感词对。这种方法利用无标注的数据集，属于无监督的方法。基于机器学习的有指导学习算法使用有标注的数据，通常将评价观点和评价对象抽取看成字符级别的序列标注问题。

现有技术存在以下技术缺陷：

1.传统的售后客户满意度评价方法试图通过寻找各种特征作为评价标准，并利用相应的小批量结构化数据建立精确数学模型。但是它们有的对样本数据准确性要求极高，有的受主观性影响极其严重，非常依赖于专家知识，更重要的是它们都不能利用各自的理论建立的精确数学模型对售后客户的满意度进行合理、精确的评价。

2.传统满意度评价方法未能完整、直观地抽取出客户对售后服务评价细粒度的评价对象及对应的观点。目前由行业专家人为设置的特征变量仅能覆盖部分客户对售后服务的评价因素，但是不同服务商的服务范围和水平以及客户的群体和需求都存在很大差异。若仅由人工选取影响因素势必不能完整覆盖客户对售后服务的观点，得出的结论会比较片面。

3.基于句法规则匹配的方法属于无监督学习方法，优点是无需人工标注，缺点是精确度不够高；基于机器学习的方法利用有标注的数据进行有监督学习，优点是比前者精度高，但缺点是需要大量标注数据，不适合业务初期的任务。这两种方法各自有其优缺点。

发明内容

本发明的发明目的是：为了解决现有技术中存在的以上问题，本发明提出了一种汽车售后服务质量评价回访文本数据的两阶段抽取方法。

本发明的技术方案是：一种汽车售后服务质量评价回访文本数据的两阶段抽取方法，包括以下步骤：

A、获取汽车售后服务质量评价回访文本数据，并进行文本预处理；

B、对步骤A预处理后的文本数据进行词性标注处理；

C、根据步骤B处理后的文本数据对每个评价进行依存句法分析处理；

D、提取步骤C处理后的文本数据的三元组信息，并作为一个标签；

E、对步骤D中的标签进行补充标注处理；

F、将步骤A中的词向量、步骤B中的词性和步骤C中的依存句法信息作为特征，将步骤E中补充标注后的标签作为GRU模型的标注集，训练GRU模型对词向量、词性和依存句法特征作基于机器学习的有指导学习，提取标签；

G、对步骤F提取的标签进行聚类、去重处理，得到精确抽取结果，完成汽车售后服务质量评价回访文本数据抽取。

进一步地，所述步骤A中文本预处理具体为：对汽车售后服务质量评价回访文本数据去除无效评论，对去除无效评论后的文本数据进行中文分词，对中文分词后的文本数据作词嵌入。

进一步地，所述对中文分词后的文本数据作词嵌入具体为：将中文分词后的文本数据中，文本段中每一个句子的每一个词映射为一个低维连续向量。

进一步地，所述步骤C根据步骤B处理后的文本数据对每个评价进行依存句法分析处理具体为：根据步骤A中的中文分词结果和步骤B中的词性信息对文本数据中每个评论采用依存句法分析处理，得到词与词之间修饰关系。

进一步地，所述步骤D还包括设定文本数据量阈值，判断步骤C处理后的文本数据量是否小于文本数据量阈值；若是，则对标签进行聚类、去重处理，得到标签的初步聚类结果；若否，则进行步骤F。

进一步地，所述对标签进行聚类、去重处理，得到标签的初步聚类结果，具体包括以下分步骤：

D1、将标签对应的word2vec词向量作为L1正则化项的降噪自编码器的输入向量；

D2、选取sigmoid函数作为激活函数，采用Kullback-Leibler散度作为损失函数，构建L1正则化项的降噪自编码器模型；

D3、将多个L1正则化项的降噪自编码器进行叠加，形成深度学习网络，对步骤D1中的word2vec词向量进行训练，得到低维特征向量；

D4、采用K-Means聚类算法对步骤D3得到的低维特征向量进行聚类，得到标签的初步聚类结果。

进一步地，所述步骤D2中L1正则化项的降噪自编码器模型具体表示为：

L(x,z)＝KL(x||z)+Lasso(θ)

其中，θ^*,θ′^*表示降噪自编码器的最优参数，argminL(x,z)表示求解使L(x,z)最小化的θ^*,θ′^*值，x表示输入向量，f_θ(x)表示输入x通过编码器参数θ到编码结果的映射，g_θ′(f_θ(x))表示输入f_θ(x)通过解码器参数θ′到重构向量z的映射，L(x,z)表示损失函数，KL(x||z)表示Kullback-Leibler散度，Lasso(θ)表示L1正则化项，λ表示L1正则化项中θ的参数，θ_j表示θ在每一维的分量。

进一步地，所述步骤F将步骤A中的词向量、步骤B中的词性和步骤C中的依存句法信息作为特征，将步骤E中补充标注后的标签作为GRU模型的标注集，训练GRU模型对词向量、词性和依存句法特征作基于机器学习的有指导学习，提取标签具体为：将步骤A中的词嵌入结果作为GRU模型的输入特征，将步骤B中的词性和步骤C中的依存句法添加到GRU模型的输入特征，将步骤E中补充标注后的标签作为GRU模型的标注集，训练GRU模型对词向量、词性和依存句法特征作基于机器学习的有指导学习，提取标签。

本发明的有益效果是：本发明在初期数据量较小时，采用基于句法规则匹配的方法进行无监督的抽取情感元素；当数据量到一定量级时，采用句法规则匹配方法产生的词性和依存关系信息可以作为特征，采用深度学习中的GRU网络结构作为机器学习算法，采用L1正则化规范的降噪自编码器结构作聚类算法，进行有监督的抽取情感元素；本发明采用无监督和有监督的方式，既减少了许多数据标注的人力又具备了较高的精确度，实现了更精确的对售后满意度建模、评价，并能帮助人工更好设计评价指标。

附图说明

图1是本发明的汽车售后服务质量评价回访文本数据的两阶段抽取方法的流程示意图；

图2是本发明实施例中依存句法分析示意图；

图3是本发明实施例中短文本L1正则化降噪编码器结构示意图；

图4是本发明实施例中聚类、去重流程示意图；

图5是本发明实施例中GRU模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明的汽车售后服务质量评价回访文本数据的两阶段抽取方法的流程示意图。一种汽车售后服务质量评价回访文本数据的两阶段抽取方法，包括以下步骤：

B、对步骤A预处理后的文本数据进行词性标注处理；

E、对步骤D中的标签进行补充标注处理；

在本发明的一个可选实施例中，上述步骤A对文本预处理具体为：对汽车售后服务质量评价回访文本数据去除无效评论，对去除无效评论后的文本数据进行中文分词，对中文分词后的文本数据作词嵌入。

对汽车售后服务质量评价回访文本数据去除无效评论时，无效评论条件包括：纯数字、乱码、评论数据长度小于3个字或者记录中全部为同一个汉字。

对去除无效评论后的文本数据进行中文分词时，采用Python封装版本pyltp，基于字的序列标注进行处理。

对中文分词后的文本数据作词嵌入时，将中文分词后的文本数据中，文本段中每一个句子的每一个词映射为一个低维连续向量。这里采用预训练好的word2vec，把对文本内容的处理简化为向量空间中的向量运算。

在本发明的一个可选实施例中，上述步骤B对中文分词后的评论数据进行词性标注，具体采用pyltp，将词性标注任务建模为基于词的序列标注问题。

在本发明的一个可选实施例中，上述步骤C根据步骤B处理后的文本数据对每个评价进行依存句法分析处理具体为：利用pyltp及步骤A中的中文分词结果和步骤B中的词性信息对文本数据中每个评论采用依存句法分析处理，得到词与词之间修饰关系。pyltp的依存句法分析模块的主要算法依据神经网络依存句法分析算法。如图2所示，为本发明实施例中依存句法分析示意图。

在本发明的一个可选实施例中，上述步骤D根据步骤C处理后的文本数据抽取模版，将三元组＜主题词，ADVs(adverbs，副词)，修饰词＞提取出来，作为一个标签。

本发明根据不同数量的文本数据采用不同的处理方式进行标签提取，具体为在初期数据量较小时，采用基于句法规则匹配的方法进行无监督的抽取情感元素；当数据量到一定量级时，采用句法规则匹配方法产生的词性和依存关系信息可以作为特征，采用深度学习中的GRU网络结构作为机器学习算法；通过设定文本数据量阈值，判断步骤C处理后的文本数据量是否小于文本数据量阈值；若是，则对标签进行聚类、去重处理，得到标签的初步聚类结果；若否，则进行步骤F。

在本发明的一个可选实施例中，上述对标签进行聚类、去重处理，得到标签的初步聚类结果，具体包括以下分步骤：

由于抽取出的标签可能有许多形式相同或语义相近的项，需要对标签进行语义去重并保证相互独立性。本发明将步骤D中的标签对应的word2vec词向量作为L1正则化项的降噪自编码器的输入向量，将它们放入加入L1正则化项的降噪自编码器中训练后，提取出低维抽象的特征向量。

基本的自动编码器接受一个输入向量x后，首先对其进行线性变化，在激活函数的作用下得到一个编码结果y。本发明选取sigmoid函数作为激活函数，计算公式为

y＝f_θ(x)＝s(Wx+b)

其中，f_θ(x)表示激活函数，即输入x通过编码器参数θ到编码结果y的映射，s表示sigmoid函数。

然后该编码结果y会在解码器的作用下，得到重构的向量z，计算公式为

z＝g_θ′(y)＝s(W′y+b′)

其中，g_θ′(y)表示输入y通过解码器参数θ′到重构向量z的映射，编码器参数是θ＝{W,b},解码器参数是θ′＝{W′,b′}，W是一个d′×d的权重矩阵，d′表示输入层向量维度，d表示隐藏层神经元个数，W′是W的转置，即W′＝W ^T，b和b′是偏置向量。

自动编码器的学习过程是无监督的，优化的目标是使重构后的向量z尽量还原输入向量x，即最小化重构带来的损失，得到最优参数θ^*和θ′^*，表示为

其中，argminL(x,z)表示求解使L(x,z)最小化的θ^*,θ′^*值。

本发明使用的损失函数为Kullback-Leibler散度，表示为

L(x,z)＝KL(x||z)

其中，L(x,z)表示损失函数，KL(x||z)表示Kullback-Leibler散度。

自动编码器的非线性表达能力使得它会经常性地出现对输入数据的过度拟合，即对个别对象特有的特征也进行充分描述。短文本的结构差异较大，特有的特征较多。如果直接运用自动编码器算法，将导致最终抽取的特征向量不能反映短文本的公有分布性特点，训练出来的模型泛化能力比较差，无法推广运用到其他短文本。因此本发明对自动编码器的学习能力进行约束，具体采用L1正则化项作为惩罚项来压缩自动编码器的系数，使绝对值较小的系数自动压缩为0，从而保证算法中各项参数的稀疏性,避免过分学习短文本中的非显著特性，表示为

L(x,z)＝KL(x||z)+Lasso(θ)

其中，Lasso(θ)表示L1正则化项，λ表示L1正则化项中θ的参数，θ_j表示θ在每一维的分量。

由于短文本构成的输入向量十分稀疏，在输出层维度较高的情况下，自动编码器算法中的编码器极有可能不会进行任何非线性的变换学习,而直接复制稀疏的输入向量，将其输出到解码器中，无法达到提取短文本中抽象特征的目的。因此本发明采用先在短文本向量中添加一定噪音,再将其输入到编码器中进行训练的方法。

从而构建L1正则化项的降噪自编码器模型，具体表示为：

L(x,z)＝KL(x||z)+Lasso(θ)

其中，θ^*,θ′^*表示降噪自编码器的最优参数，x表示输入向量，z表示重构向量，L(x,z)表示损失函数，f_θ(x)表示激活函数。如图3所示，为本发明实施例中短文本L1正则化降噪编码器结构示意图。

本发明将多个降噪自编码器叠加起来就形成了深度学习网络.在训练过程中，第K层网络的输入是第K-1层网络中编码器输出的短文本向量，第K层网络通过最小化损失函数，不断调整参数，使其输入与解码器重构后的结果尽量相同。达到最优解后，前K层网络丢弃解码器，将编码器输出的经过抽象后的低维特征向量作为第K+1层的输入，继续进行下一层训练。如此循环，逐层训练。

本发明利用K-Means聚类算法对提取出的特征向量聚类；从训练得到的低维特征向量中随机选取K个特征向量作为初始簇中心；根据与簇中心的距离，其他每个特征向量都被分配到最近的一个簇，本发明使用L2距离；然后重新计算每个簇的均值，再使用这些新簇中心，重新分配每个特征向量，直到特征向量的分配不再发生变化，这样即得特征向量的最终聚类结果。如图4所示，为本发明实施例中聚类、去重流程示意图。

本发明使用自动编码器训练后的向量作为聚类算法的输入特征，相比直接使用K-Means等聚类方法，获得了更加准确的结果。

在本发明的一个可选实施例中，上述步骤F采用GRU模型作为基于机器学习的有指导学习。当使用无监督算法运行一段时间并有一定数据积累时，本发明将步骤E中补充标注后的标签作为机器学习方法的标注集。当标注完成后，便可用GRU模型进行有监督学习。基于GRU的算法使用有标注的数据，将评价观点和评价对象抽取看成对分词后的词序列进行序列标注的问题。

如图5所示，为本发明实施例中GRU模型的结构示意图。GRU(Gated RecurrentUnit)模型对应的公式如下：

rt＝sigmoid(W_rxx^t+W_rhh^t-1+b_r)

z^t＝sigmoid(W_zxx^t+W_zhh^t-1+b_z)

n^t＝tanh(W_nxx^t+W_nh(r^t⊙h_t-1)+b_n)

h^t＝(1-z^t)⊙n^t+z^t⊙h^t-1

其中，r，z分别为重置门和更新门。

本发明将步骤A中的词向量、步骤B中的词性和步骤C中的依存句法信息作为特征，将步骤E中补充标注后的标签作为GRU模型的标注集，训练GRU模型对词向量、词性和依存句法特征作基于机器学习的有指导学习，提取标签。为了使词性特征和依存句法特征的取值固定，本发明将步骤A中的词嵌入结果作为GRU模型的输入特征，将步骤B中的词性和步骤C中的依存句法信息添加到GRU模型的输入特征。本发明将无监督学习中产生的词性和依存关系信息和词嵌入一起放入GRU模型中学习，改进了分类结果的精度。对标签进行人工补充标注处理，作为机器学习方法的标注集使用，减轻了人力成本。

在本发明的一个可选实施例中，上述步骤G采用和步骤D1-D4相同的方法对步骤F中提取的标签进行聚类、去重处理，得到精确抽取结果，完成汽车售后服务质量评价回访文本数据抽取。

本发明将人工智能领域的中文文本情感分析方法，具体为情感元素抽取，引入汽车售后服务质量评价。相较于传统方法，本发明提出的方法能更精确的对售后满意度建模、评价；抽取出的情感元素能帮助人工更好设计评价指标。

本发明将无监督和有监督方法结合的两阶段方法，既减少了许多数据标注的人力，又具备了较高的精确度，吸取了使用无监督和有监督方法的优点并改进了它们的缺点。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种汽车售后服务质量评价回访文本数据的两阶段抽取方法，其特征在于，包括以下步骤：

B、对步骤A预处理后的文本数据进行词性标注处理；

所述三元组信息包括主题词、副词及修饰词；

E、对步骤D中的标签进行补充标注处理；

2.如权利要求1所述的汽车售后服务质量评价回访文本数据的两阶段抽取方法，其特征在于，所述步骤A中文本预处理具体为：对汽车售后服务质量评价回访文本数据去除无效评论，对去除无效评论后的文本数据进行中文分词，对中文分词后的文本数据作词嵌入。

3.如权利要求2所述的汽车售后服务质量评价回访文本数据的两阶段抽取方法，其特征在于，所述对中文分词后的文本数据作词嵌入具体为：将中文分词后的文本数据中，文本段中每一个句子的每一个词映射为一个低维连续向量。

4.如权利要求3所述的汽车售后服务质量评价回访文本数据的两阶段抽取方法，其特征在于，所述步骤C根据步骤B处理后的文本数据对每个评价进行依存句法分析处理具体为：根据步骤A中的中文分词结果和步骤B中的词性信息对文本数据中每个评论采用依存句法分析处理，得到词与词之间修饰关系。

5.如权利要求4所述的汽车售后服务质量评价回访文本数据的两阶段抽取方法，其特征在于，所述步骤D还包括设定文本数据量阈值，判断步骤C处理后的文本数据量是否小于文本数据量阈值；若是，则对标签进行聚类、去重处理，得到标签的初步聚类结果；若否，则进行步骤F。

6.如权利要求5所述的汽车售后服务质量评价回访文本数据的两阶段抽取方法，其特征在于，所述对标签进行聚类、去重处理，得到标签的初步聚类结果，具体包括以下分步骤：

7.如权利要求6所述的汽车售后服务质量评价回访文本数据的两阶段抽取方法，其特征在于，所述步骤D2中L1正则化项的降噪自编码器模型具体表示为：

L(x,z)＝KL(x||z)+Lasso(θ)

其中，θ^*,θ′^*表示降噪自编码器的最优参数，arg min L(x,z)表示求解使L(x,z)最小化的θ^*,θ′^*值，x表示输入向量，f_θ(x)表示输入x通过编码器参数θ到编码结果的映射，g_θ′(f_θ(x))表示输入f_θ(x)通过解码器参数θ′到重构向量z的映射，L(x,z)表示损失函数，KL(x||z)表示Kullback-Leibler散度，Lasso(θ)表示L1正则化项，λ表示L1正则化项中θ的参数，θ_j表示θ在每一维的分量。

8.如权利要求7所述的汽车售后服务质量评价回访文本数据的两阶段抽取方法，其特征在于，所述步骤F将步骤A中的词向量、步骤B中的词性和步骤C中的依存句法信息作为特征，将步骤E中补充标注后的标签作为GRU模型的标注集，训练GRU模型对词向量、词性和依存句法特征作基于机器学习的有指导学习，提取标签具体为：将步骤A中的词嵌入结果作为GRU模型的输入特征，将步骤B中的词性和步骤C中的依存句法添加到GRU模型的输入特征，将步骤E中补充标注后的标签作为GRU模型的标注集，训练GRU模型对词向量、词性和依存句法特征作基于机器学习的有指导学习，提取标签。