CN104834651B

CN104834651B - 一种提供高频问题回答的方法和装置

Info

Publication number: CN104834651B
Application number: CN201410049585.6A
Authority: CN
Inventors: 陈超
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2014-02-12
Filing date: 2014-02-12
Publication date: 2020-06-05
Anticipated expiration: 2034-02-12
Also published as: CN104834651A

Abstract

本发明公开了一种提供高频问题回答的方法和装置，能够提高处理高频问题的***的负载能力，并有助于快速响应高频问题。本发明的提供高频问题回答的方法包括：根据预选的高频问题集，采用文本分类算法得出高频问题的分类模型，其中答案相同的高频问题归为同一高频问题类；使用所述分类模型，确定当前待回答的高频问题可能属于的一个或几个高频问题类；根据当前待回答的高频问题对于确定的高频问题类的属于概率，对当前待回答的高频问题进行答复。

Description

一种提供高频问题回答的方法和装置

技术领域

本发明涉及计算机网络技术，特别地涉及一种提供高频问题回答的方法和装置。

背景技术

对于电子商务公司来说，回答客户咨询是日常运营中常见的工作。有些公司设有大量的客服人员，通过人工接听电话或在线交流的方式来回答客户的问题，这种方式耗费大量人力，成本较高。有些公司把问题及其答案呈现在网站的页面中，让用户自行寻找答案。这种做法往往让客户感到厌烦，影响网站的访问量，并且在问题数量较大的情况下，客户难以快速找到问题及其答案。

为了方便客户快速找到问题答案和缓解客服的接线压力，这些公司都拥有或正在开发智能聊天***，一方面解决客户的咨询问题，另一方面也可以解决一些不需要客服处理的具体业务。在实践中，人们逐渐发现，在用户咨询的所有问题中，实际上只有很小的一部分问题是客户经常咨询的，这些问题被称作高频问题（Frequently Asked Questions，FAQ），通常占了客户咨询量的很大一部分。因此解决好这部分问题，对提高智能聊天***的问答准确率和改善用户体验具有极大的促进作用。

在智能聊天***中，处理高频问题的大致做法是：由人工收集并整理得到高频问题集，然后融合检索、文本纠错、语法分析、词法分析、相似度匹配等多种技术，从而实现高频问题的问答。图1是根据现有技术的处理高频问题的方案的示意图。以下结合图1对现有技术中处理高频问题的方案做出说明。

在用户输入问题后，智能聊天***中的预处理模块对输入问题进行预处理，其中主要是对输入问题进行文本纠错（把错别字替换成正确的）、停用词过滤（过滤掉一些无用的字词，如：的、了、吗等等）、词法分析（对输入问题进行分词等操作）、语法分析（对输入问题进行词性标注等操作），上述处理的主要目的是为检索模块提供支撑，使检索结果更加准确和高效。

对于预处理之后的高频问题，由索引与检索模块从高频问题索引库中检索与输入问题相匹配的问题集，并对检索到的问题集中的问题按相关度进行排序，传给问题匹配模块。问题匹配模块进行关键词或语义相似度计算，以确定检索到的问题集与输入问题的词形或语义相似度，相当于二次排序，然后选取与输入问题相似度最大的高频问题，如果其阈值大于经验阈值（经验阈值通常是要用较长时间慢慢进行调整，并不能直接计算出来），则直接将答案向用户输出；否则，不直接进行回答，而把二次排序的前N个问题作为推荐问题返回给用户，让用户自行进行选择。

上述现有的高频问题处理方案比较复杂耗时，需要服务器集群支撑，在处理量日益增大的情况下，容易出现用户发送的问题得不到响应或响应较慢的情况。

发明内容

有鉴于此，本发明给出一种提供高频问题回答的方法和装置，能够提高处理高频问题的***的负载能力，并有助于快速响应高频问题。

为实现上述目的，根据本发明的一个方面，给出了一种提供高频问题回答的方法。

本发明的提供高频问题回答的方法包括：步骤A：根据预选的高频问题集，采用文本分类算法得出高频问题的分类模型，其中答案相同的高频问题归为同一高频问题类；步骤B：使用所述分类模型，确定当前待回答的高频问题可能属于的一个或几个高频问题类；步骤C：根据当前待回答的高频问题对于步骤B中确定的高频问题类的属于概率，对当前待回答的高频问题进行答复。

可选地，所述步骤A包括：步骤A1：对所述高频问题集进行特征化，使其中各个高频问题在特征化之后为多个特征词；步骤A2：对特征化之后的所述多个高频问题进行模型训练从而得到所述分类模型。

可选地，所述步骤A1包括：对所述高频问题集依次进行文本纠错、分词、停用词过滤，然后按预设方式对所述高频问题集进行词语泛化，从而得到多个特征词。

可选地，在所述步骤C中，若最大的一个属于概率大于预设值，则输出对应该属于概率的高频问题类的答案，否则提供大小排名在前的预设数目个属于概率所对应的高频问题类的答案。

根据本发明的另一方面，给出了一种提供高频问题回答的装置。

本发明的提供高频问题回答的装置包括：模型构建模块：用于根据预选的高频问题集，采用文本分类算法得出高频问题的分类模型，其中答案相同的高频问题归为同一高频问题类；归类模块，用于使用所述分类模型，确定当前待回答的高频问题可能属于的一个或几个高频问题类；答复模块，用于根据当前待回答的高频问题对于所述归类模块确定的高频问题类的属于概率，对当前待回答的高频问题进行答复。

可选地，所述模型构建模块包括：特征化单元，用于对所述高频问题集进行特征化，使其中各个高频问题在特征化之后为多个特征词；训练单元，用于对特征化之后的所述多个高频问题进行模型训练从而得到所述分类模型。

可选地，所述特征化单元还用于：对所述高频问题集依次进行文本纠错、分词、停用词过滤，然后按预设方式对所述高频问题集进行词语泛化，从而得到多个特征词。

可选地，所述答复模块包括：排序模块，用于对所述归类模块确定的高频问题类的属于概率按大小进行排序；判断输出模块，用于判断最大的一个属于概率是否大于预设值，若是，则输出对应该属于概率的高频问题类的答案，否则输出大小排名在前的预设数目个属于概率所对应的高频问题类的特征化的高频问题；回答模块，用于输出被选择的所述特征化高频问题的答案。

根据本发明的技术方案，对于当前高频问题，确定其所属的问题类，再提供该问题类的答案，有助于尽快地处理高频问题。本发明技术方案中的处理主要是数值计算，效率很高；而在实践中，有若干类的问题的咨询量非常大，因此对于这些问题的高效处理能够明显提高电子商务的计算机***对于高频咨询问题的处理效率。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据现有技术的处理高频问题的方案的示意图；

图2是根据本发明实施例的提供高频问题回答的方法的基本步骤的示意图；

图3是根据本发明实施例的提供高频问题回答的装置的示意图；

图4是根据本发明实施例的得出高频问题分类模型的流程的示意图；

图5是根据本发明实施例的对高频问题进行分类的流程的示意图；

图6是根据本发明实施例的处理高频问题的***的示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图2是根据本发明实施例的提供高频问题回答的方法的基本步骤的示意图。如图2所示，本发明实施例的提供高频问题回答的方法的基本步骤包括如下的步骤S21至步骤S23。

步骤S21：根据预选的高频问题集，采用文本分类算法得出高频问题的分类模型。得出分类模型的作用是在电子商务的环境下对用户提供的高频问题进行分类以便快速地进行回答。这里的高频问题集可基于用户咨询的日志，由人工收集整理，也可以结合检索功能来加快收集高频问题的效率。对于文本分类算法来说，需要有一个分类方式。因为处理高频问题的目的是要提供答案，因此答案相同的高频问题归为同一高频问题集。在实际的客户咨询中往往遇到多个问题可采用同一回答方式，例如：

问题1：我订的东西什么时候能送货？

问题2：为什么到现在还未收到货？

问题3：我的订单850461304今天能送货了吗？

对于上面3个问题，可回复如下相同答案：

“您好，订单正常配送时效，请参照以下标准：

1、京东自营商品（商品编码为6位或7位）且京东配送：1-3天左右；

2、京东自营商品且第三方配送：3-5天左右；

3、第三方商家商品（商品编码为10位）：3-7天左右；

4、环球buy商品：20天左右；

如若超期，请点击人工客服核实处理。”

在本步骤中，可以先对高频问题集进行特征化，使其中各个高频问题在特征化之后为多个特征词；然后再对特征化之后的多个高频问题进行模型训练从而得到分类模型。在特征化的过程中，可以对高频问题集进行文本纠错、分词、停用词过滤等处理，再进行词语泛化，从而得到多个特征词，这样就得到了特征化的高频问题集。

步骤S22：使用步骤S21中得到的分类模型，确定当前待回答的高频问题可能属于的一个或几个高频问题类。在本步骤中，将当前的高频问题输入到分类模型中，会得到该高频问题可能属于的若干个类别，并且该高频问题对于该若干个类别中的每一类，会有一个属于概率。

步骤S23：根据当前待回答的高频问题对于步骤S22中确定的高频问题类的属于概率，对当前待回答的高频问题进行答复。在本步骤中，若最大的一个属于概率大于预设值，则输出对应该属于概率的高频问题类的答案，否则提供大小排名在前的预设数目个属于概率所对应的高频问题类的答案。

图3是根据本发明实施例的提供高频问题回答的装置的示意图。如图3所示，本发明实施例的提供高频问题回答的装置30主要包括模型构建模块31、归类模块32、以及答复模块33。

模型构建模块31用于根据预选的高频问题集，采用文本分类算法得出高频问题的分类模型，其中答案相同的高频问题归为同一高频问题类；归类模块32用于使用上述分类模型，确定当前待回答的高频问题可能属于的一个或几个高频问题类；答复模块33用于根据当前待回答的高频问题对于归类模块32确定的高频问题类的属于概率，对当前待回答的高频问题进行答复。

模型构建模块31的一种可选结构是包括特征化单元和训练单元（图中未示出），其中特征化单元用于对上述高频问题集进行特征化，使其中各个高频问题在特征化之后为多个特征词；训练单元，用于对特征化之后的上述多个高频问题进行模型训练从而得到上述分类模型。特征化单元还可以用于对上述高频问题集依次进行文本纠错、分词、停用词过滤，然后按预设方式对上述高频问题集进行词语泛化，从而得到多个特征词。

答复模块33的一种可选结构是包括排序模块、判断输出模块、以及回答模块（图中未示出）。其中排序模块用于对归类模块32确定的高频问题类的属于概率按大小进行排序；判断输出模块用于判断最大的一个属于概率是否大于预设值，若是，则输出对应该属于概率的高频问题类的答案，否则输出大小排名在前的预设数目个属于概率所对应的高频问题类的特征化的高频问题；回答模块用于输出被选择的特征化高频问题的答案。如前所述，将答案相同的多个高频问题归为同一高频问题类，这些高频问题的具体文字表达方式各异，但可以采用一种提问方式作为它们的等价方式。例如前文举例的如下3个问题：

问题1：我订的东西什么时候能送货？

问题2：为什么到现在还未收到货？

问题3：我的订单850461304今天能送货了吗？

这三个问题可采用一个标准问题代替：“请问现在订单正常配送时效的标准是什么？”采用标准问题，一方面能够准确描述客户的疑问，另一方面是兼顾了文字表达的规范、优美。

以下对本发明实施例的技术方案做进一步详细说明。图4是根据本发明实施例的得出高频问题分类模型的流程的示意图。

高频问题分类模型是根据高频问题集经训练得出，因此需要收集高频问题以形成高频问题集（步骤41）。然后对高频问题集进行人工标注和扩充以得到带类标的高频问题集（步骤42），具体可以先把采用相同答案的问题归为一个高频问题类；然后在用户咨询的日志中，人工提取出属于每个类别的问题来进行扩充。在这里也可借助检索功能来加快扩充过程。最终得到带类标的高频问题集。

接下来要对带类标的高频问题集进行特征化（步骤43）。可按如下子步骤完成：第一步（步骤431），对高频问题集中的每个问题进行文本纠错，这一过程采用的是简单的基于字典的纠错方式，纠错字典中包含了人工收集的常见“错词-正确词”，直接采用扫描替换的方式进行；第二步（步骤432）对文本纠错后的问题集进行分词，分词过程把连续的英文和数字当成一个词看待；第三步（步骤433）采用人工收集的停用词库对问题集进行停用词过滤；第四步（步骤434）进行词语泛化过程，即把所有的数字都替换为0、把所有商品名称都替换为商品类别名、根据同义词典把词义相同的词都替换为统一的词，最终得到特征化后的高频问题集。

以上文的3个问题为例，该3个问题的特征化结果如下：

问题1：订东西什么时候送货

问题2：现在未收到货

问题3：订单000000000今天送货

其中过滤的停用词为：我的

在保存了特征化后的高频问题集（步骤44）后，进入模型生成阶段（步骤45）。以下说明本步骤的具体流程。第一步（步骤451），进行基于信息增益的特征选择。此时先按公式（1）计算出高频问题集中每个特征词的信息增益值。

公式（1）：

其中，n表示高频问题的类别数目；p(c_i)表示类别c_i的先验概率，即属于类别c_i的高频问题数目与训练集中高频问题总数的商；p(t)表示词t的先验概率，即训练集中包含t的高频问题数目与训练集高频问题总数的商；

表示出现t时，类别c_i出现的概率，即在类别c_i中包含t的高频问题数目与训练集中包含t的高频问题数目的商；

表示不出现t时，类别c_i出现的概率，即在非c_i类别中包含t的高频问题数目与训练集中不包含t的高频问题数目。

按信息增益值的大小对特征词进行排序，设N表示向量空间大小，取前若干个例如1000个特征词，于是得到向量空间表示。以上述3个问题为例，其中的每个特征词的信息增益值如下：

订0.95 东西0.9 什么0.85 时候0.8 送货0.75

现在0.7 未0.65 收到0.6 货0.55 订单0.5

0000000000.45 今天0.4

作为举例说明，设置向量空间大小为10，即只有前10个特征词有效，则向量空间表示为：

<订，东西，什么，时候，送货，现在，未，收到，货，订单>

第二步，问题向量化（步骤452）。用0，1表示权重，上述3个问题的向量化结果如下：

问题1：<1,1,1,1,1,0,0,0,0,0>（因为问题1特征化之后为：订，东西，什么，时候，送货；即包含了前5个特征，因此向量中前5个元素为1，后5个元素为0。下同。）

问题2：<0,0,0,0,0,1,1,1,1,0>

问题3：<0,0,0,0,1,0,0,0,0,1>

在问题向量化之后即得到向量化后的高频问题集。接下来把向量化后的高频问题集作为数据进行模型训练（步骤453）。本实施例中采用支持向量机（SVM），在模型训练后得到SVM模型。在实现中，也可以采用决策树、贝叶斯等机器学***均F值Fmean。

公式（2）：

其中，Acc表示各个类别的分类准确率的均值；Rec表示各个类别的召回率的均值。根据公式（2），如果F_mean不符合要求，则增大N，重新执行步骤451至步骤453。

在得到SVM模型的情况下，就可以对接收到的问题进行处理，给出该问题的答案或者提供与问题的表述较为接近的多个问题的答案。具体可按图5所示步骤进行，图5是根据本发明实施例的对高频问题进行分类的流程的示意图。

如图5所示，在接收到高频问题后，将其输入到SVM模型中（步骤51），然后将该高频问题进行特征化（步骤52）。步骤52包含如下子步骤：文本纠错过程（步骤521）、分词过程（步骤522）、停用词过滤（步骤523）、词语泛化过程（步骤525）。这些步骤与图4中的相应步骤类似。在保存特征化之后的高频问题（步骤53）之后，进行分类过程（步骤54），其中，先根据SVM模型对应的向量空间，对当前高频问题进行向量化（步骤541），然后采用SVM模型进行分类（步骤542）。最后输出分类结果（步骤55）。

如前所述，分类结果是多个问题类，并且每个问题类有一个属于概率，表示当前高频问题分别属于这些类的概率。若最大的属于概率大于设定的阈值，则认为当前高频问题就是属于该问题类，此时直接输出该问题类的答案，否则可以输出较大的多个属于概率对应的问题类的标准问题，供用户选择。另外，如果最大的属于概率小于设定的另一阈值，则认为当前高频问题不属于SVM模型中的任一类，此时可按图6所示进行处理，图6是根据本发明实施例的处理高频问题的***的示意图。图6同时示出了每个模块执行的步骤。

如图6所示，用户输入高频问题之后，由预处理模块61进行问题特征化处理，然后将特征化的高频问题交由基于SVM的高频问题分类模块62，该模块对当前高频问题进行分类后，根据属于概率的大小判断该高频问题是否属于某个分类，若是，则输出该分类的问题的答案作为当前高频问题的回答，否则将当前高频问题交由索引与检索模块63，由后者在问题索引库中进行检索，对检索回来的问题集由问题匹配模块64进行关键词或语义相似度计算，这里可采用现有技术的方式，得到相似度较高的问题，最后输出该问题的答案作为当前高频问题的回答。

根据本发明实施例的技术方案，对于当前高频问题，确定其所属的问题类，再提供该问题类的答案，有助于尽快地处理高频问题。本发明技术方案中的处理主要是数值计算，效率很高；而在实践中，有若干类的问题的咨询量非常大，因此对于这些问题的高效处理能够明显提高电子商务的计算机***对于高频咨询问题的处理效率。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和设备的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来开发出的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种提供高频问题回答的方法，其特征在于，包括：

步骤A：根据预选的高频问题集，采用文本分类算法得出高频问题的分类模型，其中答案相同的高频问题归为同一高频问题类；

步骤B：使用所述分类模型，确定当前待回答的高频问题可能属于的一个或几个高频问题类；

步骤C：根据当前待回答的高频问题对于步骤B中确定的高频问题类的属于概率，对当前待回答的高频问题进行答复；

所述步骤A包括：

步骤A1：对所述高频问题集进行特征化，使其中各个高频问题在特征化之后为多个特征词；

步骤A2：对特征化之后的多个高频问题进行模型训练从而得到所述分类模型；

其中，所述步骤A2包括：

步骤A21：按以下公式计算出高频问题集中每个特征词的信息增益值：

其中，n表示高频问题的类别数目；p(c_i)表示类别c_i的先验概率，p(t)表示词t的先验概率，

p(c_i|t)表示出现t时，类别c_i出现的概率，

表示不出现t时，类别c_i出现的概率；

步骤A22：根据每个特征词的信息增益值，将高频问题向量化，得到向量化后的高频问题集；

步骤A23：把向量化后的高频问题集作为数据进行模型训练，从而得到所述分类模型；

在所述步骤C中，若最大的一个属于概率大于预设值，则输出对应该属于概率的高频问题类的答案，否则提供大小排名在前的预设数目个属于概率所对应的高频问题类的答案。

2.根据权利要求1所述的方法，其特征在于，所述步骤A1包括：

对所述高频问题集依次进行文本纠错、分词、停用词过滤，然后按预设方式对所述高频问题集进行词语泛化，从而得到多个特征词。

3.一种提供高频问题回答的装置，其特征在于，包括：

模型构建模块：用于根据预选的高频问题集，采用文本分类算法得出高频问题的分类模型，其中答案相同的高频问题归为同一高频问题类；

归类模块，用于使用所述分类模型，确定当前待回答的高频问题可能属于的一个或几个高频问题类；

答复模块，用于根据当前待回答的高频问题对于所述归类模块确定的高频问题类的属于概率，对当前待回答的高频问题进行答复；

所述模型构建模块包括：

特征化单元，用于对所述高频问题集进行特征化，使其中各个高频问题在特征化之后为多个特征词；

训练单元，用于对特征化之后的多个高频问题进行模型训练从而得到所述分类模型；

其中，所述训练单元用于：

按以下公式计算出高频问题集中每个特征词的信息增益值：

p(c_i|t)表示出现t时，类别c_i出现的概率，

表示不出现t时，类别c_i出现的概率；

根据每个特征词的信息增益值，将高频问题向量化，得到向量化后的高频问题集；

把向量化后的高频问题集作为数据进行模型训练，从而得到所述分类模型；

所述答复模块包括：

排序模块，用于对所述归类模块确定的高频问题类的属于概率按大小进行排序；

判断输出模块，用于判断最大的一个属于概率是否大于预设值，若是，则输出对应该属于概率的高频问题类的答案，否则输出大小排名在前的预设数目个属于概率所对应的高频问题类的特征化的高频问题；

回答模块，用于输出被选择的所述特征化高频问题的答案。

4.根据权利要求3所述的装置，其特征在于，所述特征化单元还用于：对所述高频问题集依次进行文本纠错、分词、停用词过滤，然后按预设方式对所述高频问题集进行词语泛化，从而得到多个特征词。