CN105955976B

CN105955976B - 一种自动应答***及方法

Info

Publication number: CN105955976B
Application number: CN201610237009.3A
Authority: CN
Inventors: 张佶; 盛丽晔; 范融; 于志安
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC; ICBC Technology Co Ltd
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2019-05-14
Anticipated expiration: 2036-04-15
Also published as: CN105955976A

Abstract

本发明公开了一种自动应答***及方法，其中，该***包括：问题接收单元，用于接收用户输入的问题；关键词提取单元，用于对问题进行分析，提取关键问题词汇；同义词扩展单元，用于对问题关键词汇进行同义词扩展，获得同义词扩展后的问题关键词汇；搜索单元，用于在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录；显示单元，用于将历史记录显示给用户；结果接收单元，用于接收该用户在历史记录中选择的最佳匹配结果，将最佳匹配结果存储至数据存储单元；数据存储单元，用于存储搜索索引数据、历史记录、最佳匹配结果。

Description

一种自动应答***及方法

技术领域

本发明涉及计算机信息***中的数据处理技术领域，尤指一种自动应答***及方法。

背景技术

在大数据时代下，不断产生了短信、微信、微博等新的客户服务渠道，企业服务类文本记录的数据量日益增长。这些记录通常包含了客户的提问、投诉、建议等关键信息，以及服务人员的答复记录。若能对大量的历史文本记录进行匹配分析，并能在短时间自动为终端用户提供最优应答，将大大提升服务品质，有利于树立良好的企业形象。

针对上述考虑，目前一般的做法是终端服务人员通过使用搜索工具，对历史服务文本记录进行搜索，并选择相关度最高的答案作为参考应答给终端用户。但是，这种方法有以下局限：首先终端用户的问题中对产品、服务进行描述的用词具有一定随意性，存在同一概念运用了不同的词汇的情况。另外，终端服务人员在记录问题时，也可能由于别称、错别字等原因记录了不同的说法，从而导致客服文本匹配的准确性下降，数据处理效率低；其次无法做到终端客户问题的自动应答，答复效率较低。

发明内容

针对现有应答方式所存在的不足，本发明提出了一种自动应答***及方法，通过对以往服务文本的分析，提取可替换使用的同义词对，并在终端***接收到类似终端用户的问题时，对问题中的词汇先进行同义词扩展，在进行匹配搜索后自动应答，以缩短***响应的时间，同时提升数据匹配精确度。

为达到上述目的，本发明提出了一种自动应答***，该***包括：问题接收单元，用于接收用户输入的问题；关键词提取单元，用于对问题进行分析，提取关键问题词汇；同义词扩展单元，用于对问题关键词汇进行同义词扩展，获得同义词扩展后的问题关键词汇；搜索单元，用于在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录；显示单元，用于将历史记录显示给用户；结果接收单元，用于接收该用户在历史记录中选择的最佳匹配结果，将最佳匹配结果存储至数据存储单元；数据存储单元，用于存储搜索索引数据、历史记录、最佳匹配结果。

为达到上述目的，本发明还提出了一种利用自动应答***进行自动应答的方法，该方法包括：步骤1，接收用户输入的问题；步骤2，对问题进行分析，提取关键问题词汇；步骤3，对问题关键词汇进行同义词扩展，获得同义词扩展后的问题关键词汇；步骤4，在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录；步骤5，将历史记录显示给用户；步骤6，接收该用户在历史记录中选择的最佳匹配结果，将最佳匹配结果存储至数据存储单元。

本发明提出的自动应答***及方法，可以通过分析处理自动发现终端服务文本相关的近义词对或同义词对，在终端用户输入提问时，自动进行同义词扩展，提升匹配准确性，并自动进行应答，提升答复问题的效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例的自动应答***结构示意图。

图2为本发明一实施例的数据存储单元的结构示意图。

图3为本发明一实施例存储的最佳匹配结果的数据结构示意图。

图4为本发明一实施例存储的近义词对数据结构示意图。

图5为本发明一实施例存储的同义词对数据结构示意图。

图6为本发明一实施例的数据分析单元的结构示意图。

图7为本发明一实施例的近似程度分析过程示意图。

图8为本发明一实施例的自动应答的方法流程图。

图9为本发明一实施例的近义词对的分析方法流程图。

图10为本发明一实施例的同义词对的分析方法流程图。

具体实施方式

以下配合图示及本发明的较佳实施例，进一步阐述本发明为达成预定发明目的所采取的技术手段。其中所使用的术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的***较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图1为本发明一实施例的自动应答***结构示意图。如图1所示，该***包括：

问题接收单元100，用于接收用户输入的问题；

关键词提取单元200，用于对问题进行分析，提取关键问题词汇；

同义词扩展单元300，用于对问题关键词汇进行同义词扩展，获得同义词扩展后的问题关键词汇；

搜索单元400，用于在数据存储单元700中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录；

显示单元500，用于将历史记录显示给用户；其中，显示单元500显示时，可以将前三条匹配度最高的历史记录反馈给用户，供用户选择。

结果接收单元600，用于接收该用户在历史记录中选择的最佳匹配结果，将最佳匹配结果存储至数据存储单元700；

数据存储单元700，用于存储搜索索引数据、历史记录、最佳匹配结果。

在本实施例中，关键词提取单元200提取关键问题词汇的步骤包括：

对问题文本进行中文分词，计算词汇在文本中的权重值TF_IDF，其中，TF表示词汇在当前文本内出现频度越高，则权重越大，IDF表示词汇在全部文本中出现频度越低，则权重越大，提取TF_IDF值最高的一定数量的词汇，作为关键问题词汇；

TF_IDF值的计算公式如下：

TF_IDF_i,j＝TF_i.j×IDF_i；

其中，TF_IDF_i,j表示词汇i在问题j中的权重；

其中TF_i.j表示词汇i在问题j中的词频，n_i,j为词汇i在问题j中的出现次数，∑_kn_k,j为是在问题j中所有字词k的出现次数之和；

其中，IDFi表示词汇i的倒文档频率，|D|表示问题总数，|{j:t_i∈d_j}表示包含词语ti的问题d_j的数目。

在本实施例中，结合图2所示，为数据存储单元的结构示意图。如图2所示，数据存储单元700包括：匹配记录存储模块710、搜索索引存储模块720、终端服务记录存储模块730、近义词对存储模块740、同义词对存储模块750。其中，

匹配记录存储模块710，用于存储最佳匹配结果。如图3所示，为存储的最佳匹配结果的数据结构示意图。其中记录了会话ID、终端用户编号、历史问题、问题词汇及匹配时间。

搜索索引存储模块720，用于存储搜索索引数据，对历史记录建立倒排索引，供搜索装置查询，将随着历史记录内容的增加而增量更新。

终端服务记录存储模块730，用于存储历史记录，所述历史记录包括：历史问题及通过近义词对或同义词对生成的答复文本。

近义词对存储模块740，用于存储同义词扩展后的问题关键词汇及近义词汇组成的近义词对。如图4所示，为存储的近义词对数据结构示意图。其中包含了关键问题词汇、近义词汇及关联度。

同义词对存储模块750，用于存储同义词扩展后的问题关键词汇及同义词汇组成的同义词对。如图5所示，为存储的同义词对数据结构示意图。其中包含了关键问题词汇、同义词汇。

进一步的，再结合图1所示，自动应答***还包括：数据分析单元800，用于对问题关键词汇与最佳匹配结果进行分析，根据分析结果建立近义词对或同义词对，并存储于数据存储单元700。

结合图6所示，为数据分析单元的结构示意图。如图6所示，数据分析单元800包括：近义词分析模块810、检索序列分析模块820、拼音分析模块830、共现分析模块840、点击特征分析模块850。其中，

近义词分析模块810，用于对问题关键词汇与最佳匹配结果进行关联度分析，得到具有一定关联度的近义词后，存储到近义词对存储模块740，这些近义词可能是概念相近的词汇，也可能是具有上下位关系的父子概念。

近义关系的计算公式如下：

其中，p_uj表示问题关键词汇u与最佳匹配结果j的近似程度，N(u)为问题关键词汇所匹配的最佳匹配结果集合，S(j,K)为与最佳匹配结果j匹配次数最高的其它K个最佳匹配结果集合，w_ji是最佳匹配结果j和一定数量的词汇i的匹配次数，r_ui是问题关键词汇u对一定数量的词汇i的匹配次数；

将计算获得的词对的近似程度进行归一化处理，公式为：

y＝(x-MinValue)/(MaxValue-MinValue)，把近似程度超过一设定阈值的近义词存储到近义词对存储模块740。

为了对上述近义词分析模块810的功能进行更清楚地解释，以下通过一实施例来进行说明。

结合图7所示，为本发明一实施例的近似程度分析过程示意图。如图7所示，问题词汇“ATM”有30次被终端用户匹配了历史问题一，10次匹配了历史问题二；历史问题一还被匹配了词汇“自助机具”6次和自助提款机8次；历史问题二还被匹配了词汇“自助提款机”12次和“吞卡”10次。

根据上述公式计算，并进行归一化处理后，得到以下词对近似度：

ATM—自助机具：0.3；

ATM—自助提款机：1；

ATM—吞卡：0；

若近似度阈值为0.2，则“ATM—自助提款机”、“ATM—自助机具”被判定为近义词。

检索序列分析模块820，用于从近义词对存储模块740中读取近义词对，并分析所述近义词对在匹配记录存储模块710中一设定的时间序列内被替换使用的概率，由于终端用户在输入一个问题词汇时，若没有得到理想的结果，常会在一个较短的时间内选择意义相同可以相互替换的词汇进行问题描述的改写。因此，可以将概率超过一设定阈值的近义词对判定为同义词对，存储于同义词对存储模块750。

拼音分析模块830，用于从近义词对存储模块740中读取近义词对，并分析近义词对的读音相似度，这是由于终端用户在输入问题时为了确保输入速度，输入了同音错别字的可能性较大，如；微博和微薄，其实意义相同。因此可以将读音相似度大于一设定阈值的同音近义词对判定为同义词对，存储于同义词对存储模块750；其中，读音相似度计算公式如下：

其中，Sim_dis表示读音相似度，S_wi表示wi的读音字符串，|S_wi|表示wi读音字符串的长度，i＝1,2，minDis(S_w1,S_w2)代表最小编辑距离。

共现分析模块840，用于从近义词对存储模块740中读取近义词对，并分析近义词对在终端服务记录存储模块730存储的终端服务记录文本中共现程度的大小。由于终端用户在描述问题时，可能对一个词汇前后有不同说法，如先使用全称，后续再次提到则使用简称。因此，如果共现程度达到一设定阈值，可以判定近义词对为同义词对，存储于同义词对存储模块750；其中，计算两个词汇的共现程度公式如下：

其中，w_ij表示词汇i与词汇j的共现程度，N(i)表示出现问题词汇i的历史记录集合；N(i)∩N(j)表示同时出现词汇i和词汇j的历史记录集合；|N(i)|表示出现问题词汇i的历史记录集合的数量。

点击特征分析模块850，用于从近义词对存储模块740中读取近义词对，并分析所述近义词对在终端服务记录存储模块730存储的终端服务记录文本中，词i出现在查询中，但没有出现在历史记录的标题中，词j出现在历史记录的标题中，计算词i和词j的相互交换比例的计算公式为：

其中，C_ij表示相互交换比例，wt_i表示词i出现在标题中，|wt_iwq_j|表示词i出现在标题中、词j出现在查询中的数量；

将相互交换比例超过一设定阈值的词对存储到同义词存储模块750。

本发明提出的自动应答***是基于同义词扩展的方式进行自动应答，其中的数据分析单元可以对大量历史的终端用户问题及相应的最佳应答进行分析，得到具有相关性的近义词对，对得到的近义词对做进一步计算处理，筛选出可用的同义词对，将结果存储在同义词对存储单元。在服务时，首先提取问题中的问题词汇，通过同义词扩展单元对问题词汇进行扩展，提升词汇覆盖面，再根据词汇关联度将搜索到的最佳历史应答记录返回给终端用户。

基于同一发明构思，本发明实施例中还提供了一种自动应答方法，如下面的实施例所述。由于该方法解决问题的原理与上述***相似，因此该方法的实施可以参见上述***的实施，重复之处不再赘述。

图8为本发明一实施例的自动应答的方法流程图。该方法可以通过上述自动应答***来进行，包括：

步骤S1，接收用户输入的问题；

步骤S2，对问题进行分析，提取关键问题词汇；

步骤S3，对问题关键词汇进行同义词扩展，获得同义词扩展后的问题关键词汇；

步骤S4，在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录；其中，历史记录包括：历史问题及通过近义词对或同义词对生成的答复文本。

步骤S5，将历史记录显示给用户，可以显示前三条匹配度最高的历史记录。

步骤S6，接收该用户在历史记录中选择的最佳匹配结果，将最佳匹配结果存储至数据存储单元。

结合图9所示，为近义词对的分析方法流程图。如图9所示，包括：

步骤101，获取同义词扩展后的问题关键词汇及对应的最佳匹配结果；

步骤102，依次读取同义词扩展后的问题关键词汇；

步骤103，统计同义词扩展后的问题关键词汇与最佳匹配结果之间的匹配次数w；

步骤104，依次读取最佳匹配结果；

步骤105，查找匹配所述最佳匹配结果的历史记录，依次读取历史记录；

步骤106，统计所述历史记录匹配到最佳匹配结果的次数r；

步骤107，计算词汇间的近义程度p＝w×r，如果遇到重复的最佳匹配结果，则将p累加；

步骤108，读取近义词判断阈值s，如果p>s，则存储为近义词对；

步骤109，判断是否为最后一个历史记录，是则执行步骤110，否则重复执行步骤105；

步骤110，判断是否为最后一个最佳匹配结果，是则执行步骤111，否则重复执行步骤104；

步骤111，判断是否为最后一个同义词扩展后的问题关键词汇，是则分析结束，否则重复执行步骤102。

结合图10所示，为同义词对的分析方法流程图。如图10所示，包括：

步骤201，依次读取近义词对；

步骤202，计算得到近义词对的拼音字符串间的读音近似度；

步骤203，判断读音近似度是否大于一设定阈值，是则执行步骤210，否则继续执行步骤204；

步骤204，根据检索序列，计算在同一个会话中，在搜索第一词的基础上，又搜索了第二词的条件概率；

步骤205，判断条件概率是否大于一设定阈值，是则执行步骤210，否则继续执行步骤206；

步骤206，分析第一词及第二词的共现程度；

步骤207，判断共现程度是否超过一设定阈值，是则执行步骤210，否则继续执行步骤208；

步骤208，分析两词汇的点击特征；

步骤209，判断点击特征超过一设定阈值，是则执行步骤210，否则结束同义词分析，判定为非同义词；

步骤210，存储同义词对。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动应答***，其特征在于，该***包括：

问题接收单元，用于接收用户输入的问题；

关键词提取单元，用于对问题进行分析，提取关键问题词汇；

同义词扩展单元，用于对问题关键词汇进行同义词扩展，获得同义词扩展后的问题关键词汇；

搜索单元，用于在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录；

显示单元，用于将历史记录显示给用户；

结果接收单元，用于接收该用户在历史记录中选择的最佳匹配结果，将最佳匹配结果存储至数据存储单元；

数据存储单元，用于存储搜索索引数据、历史记录、最佳匹配结果；

数据分析单元，用于对问题关键词汇与最佳匹配结果进行分析，根据分析结果建立近义词对或同义词对，并存储于数据存储单元；

其中，所述数据存储单元包括：

匹配记录存储模块，用于存储最佳匹配结果；

搜索索引存储模块，用于存储搜索索引数据，对历史记录建立倒排索引，供搜索装置查询，将随着历史记录内容的增加而增量更新；

终端服务记录存储模块，用于存储历史记录，所述历史记录包括：历史问题及通过近义词对或同义词对生成的答复文本；

近义词对存储模块，用于存储同义词扩展后的问题关键词汇及近义词汇组成的近义词对；

同义词对存储模块，用于存储同义词扩展后的问题关键词汇及同义词汇组成的同义词对；

其中，所述数据分析单元包括：

近义词分析模块，用于对问题关键词汇与最佳匹配结果进行关联度分析，得到具有一定关联度的近义词后，存储到近义词对存储模块；将计算获得的词对的近似程度进行归一化处理，把近似程度超过一设定阈值的近义词存储到近义词对存储模块；

检索序列分析模块，用于从近义词对存储模块中读取近义词对，并分析所述近义词对在匹配记录存储模块中一设定的时间序列内被替换使用的概率，将概率超过一设定阈值的近义词对判定为同义词对，存储于同义词对存储模块。

2.根据权利要求1所述的***，其特征在于，所述关键词提取单元，用于对问题进行分析，提取关键问题词汇，包括：

TF_IDF值的计算公式如下：

TF_IDF_i,j＝TF_i.j×IDF_i；

其中，TF_IDF_i,j表示词汇i在问题j中的权重；

其中，IDF_i表示词汇i的倒文档频率，|D|表示问题总数，|{j:t_i∈d_j}|表示包含词语t_i的问题d_j的数目。

3.根据权利要求1所述的***，其特征在于，近义关系的计算公式如下：

其中，p_uj表示问题关键词汇u与最佳匹配结果j的近似程度，N(u)为问题关键词汇所匹配的最佳匹配结果集合，S(j,K)为与最佳匹配结果j匹配次数最高的其它K个最佳匹配结果集合，w_ji是最佳匹配结果j和一定数量的词汇i的匹配次数，r_ui是问题关键词汇u对一定数量的词汇i的匹配次数。

4.根据权利要求3所述的***，其特征在于，所述数据分析单元还包括：拼音分析模块，用于从近义词对存储模块中读取近义词对，并分析近义词对的读音相似度，将读音相似度大于一设定阈值的同音近义词对判定为同义词对，存储于同义词对存储模块；其中，读音相似度计算公式如下：

5.根据权利要求3所述的***，其特征在于，所述数据分析单元还包括：共现分析模块，用于从近义词对存储模块中读取近义词对，并分析近义词对在终端服务记录存储模块存储的终端服务记录文本中共现程度的大小，如果共现程度达到一设定阈值，判定近义词对为同义词对，存储于同义词对存储模块；其中，计算两个词汇的共现程度公式如下：

其中，w_iq表示词汇i与词汇q的共现程度，N(i)表示出现问题词汇i的历史记录集合；N(i)∩N(q)表示同时出现词汇i和词汇q的历史记录集合；|N(i)|表示出现问题词汇i的历史记录集合的数量。

6.根据权利要求3所述的***，其特征在于，所述数据分析单元还包括：点击特征分析模块，用于从近义词对存储模块中读取近义词对，并分析所述近义词对在终端服务记录存储模块存储的终端服务记录文本中，词i出现在查询中，但没有出现在历史记录的标题中，词j出现在历史记录的标题中，计算词i和词j的相互交换比例的计算公式为：

将相互交换比例超过一设定阈值的词对存储到同义词存储模块。

7.一种利用权利要求1的自动应答***进行自动应答的方法，其特征在于，该方法包括：

步骤1，接收用户输入的问题；

步骤2，对问题进行分析，提取关键问题词汇；

步骤3，对问题关键词汇进行同义词扩展，获得同义词扩展后的问题关键词汇；

步骤4，在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录；

步骤5，将历史记录显示给用户；其中，所述历史记录包括：历史问题及通过近义词对或同义词对生成的答复文本；

步骤6，接收该用户在历史记录中选择的最佳匹配结果，将最佳匹配结果存储至数据存储单元；

其中，所述近义词对的分析方法包括：