CN108038234A

CN108038234A - 一种问句模板自动生成方法及装置

Info

Publication number: CN108038234A
Application number: CN201711436114.0A
Authority: CN
Inventors: 邹辉
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Shanghai Zhongan Information Technology Service Co ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-05-15
Anticipated expiration: 2037-12-26
Also published as: CN108038234B

Abstract

本发明公开了一种问句模板自动生成方法及装置，属于智能问答技术领域。所述方法包括：准备问句日志语料；对所述日志语料进行分词和词性标注；进行命名实体识别和替换；进行语义替换；进行频繁项集挖掘，生成问句模板。本方法及装置不仅提高了问句模板生成的效率，大量节约了人工资源，而且能对生成的问句模板进行评估，自主的持续扩展问句模板库，提升智能问答***知识库的质量。

Description

一种问句模板自动生成方法及装置

技术领域

本发明涉及智能问答技术领域，特别涉及一种问句模板自动生成方法及装置。

背景技术

目前，越来越多的企业会承担大量用户售后服务或售前咨询工作。由于用户数量的指数增长，完全采用人工的方式对所有用户咨询进行回答会耗费大量的人工资源，而且很多知识点相对集中，人工回复往往包含大量重复劳动，从而智能问答***应运而生，智能问答***能针对用户输入的问题进行自动回答，效率得到了大幅度提高。

智能问答***的技术原理有基于问句模板匹配、知识库检索等方式。其中，问句模板匹配技术是使用最广泛的技术之一，问句模板指的是通过对问句进行识别替换之后形成的特定的符号标签序列，对问句模板问题增加相应的答案，在遇到与模板相同或者相似度很高的问题时，模板匹配技术会对该问题进行匹配回答。问句模板匹配技术的难点在于如何高效并可持续的生成问句模板。传统的问句模板的生成，需要人工针对特定句式进行模板设置，不仅繁琐而且可覆盖性差；在知识库更新的时候，也需要人工对模板库中不能涵盖的问句模板进行新模板的设置与评估，可维护性和自我学习性差。在目前公开的相关专利，还未发现针对以上技术问题作出相应改进的技术方案，例如发明申请201611076382.1(《一种自动问答模板匹配的方法及装置》)，通过确定待解答问题对应各分词的模板问题集合的子集，得到待解答问题的匹配问题，提高了自动问答***的模板匹配效率和准确度，但并未涉及模板自动生成以及生成模板质量评估问题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种问句模板自动生成方法及装置。所述技术方案如下：

第一方面，提供了一种问句模板自动生成方法，所述方法包括：

准备问句日志语料；对所述日志语料进行分词和词性标注；进行命名实体识别和替换；进行语义替换；进行频繁项集挖掘，生成问句模板。

结合第一方面，在第一种可能实现方式中，准备问句日志语料，包括：

获取问句日志语料，并对问句日志语料进行预处理，包括标点符号去除、非法符号去除、单词大小写转换。

结合第一方面，在第二种可能实现方式中，对所述日志语料进行分词和词性标注，包括：

结合行业词典的分词方法对所述日志语料进行分词。

结合第一方面，在第三种可能实现方式中，进行命名实体识别和替换，包括：

对问句日志语料中出现的包括时间、数字和/或地名的通用实体进行命名实体识别，并将所述通用实体替换成对应的实体标签。

结合第一方面，在第四种可能实现方式中，进行语义替换，包括：

将问句日志语料中问句分词后的词通过语义网搜索，根据词的释义将相同或相似释义的词抽象统一为标签，并进行相应替换，生成由命名实体和语义替换后的语义概念构成的符号标签序列。

结合第一方面的第四种可能实现方式，在第五种可能实现方式中，进行频繁项集挖掘，生成问句模板，包括：

通过设定阈值范围，从问句语料日志的候选项集中获得频繁项集，生成问句模板。

结合第一方面的第五种可能实现方式，在第六种可能实现方式中，进行频繁项集挖掘，生成问句模板，包括：

根据预设频次阈值范围和预设项集长度阈值范围，利用预定关联规则算法从所述符号标签序列中筛选频繁项集，按照项的默认顺序形成的序列以生成问句模板。

结合第一方面的第五至六种可能实现方式，在第七至八种可能实现方式中，所述方法还包括：

利用预设句向量模型对筛选出的问句模板下的问句进行句向量表征；

利用以下计算公式计算出所述问句模板的聚类紧密度：

根据预设的模板聚类紧密度阈值，筛选出聚类紧密度大于该紧密度阈值的问句模板；

将筛选出的问句模板在模板库中进行查找对比，若模板库不存在筛选出的问句模板，将筛选出的问句模板保存至模板库；

其中，计算公式中，CP_j为计算得到的第j个问句模板的聚类紧密度，X_i为第j个问句模板下第i个问句的句向量，W_j为第j个问句模板对应的聚类的所有句向量的平均值；Ω_j为为第j个问句模板对应的聚类的所有句向量模长总和，i，j均为大于等于1的整数。

结合第一方面的第七至八种可能实现方式，在第九至十种可能实现方式中，所述预设句向量模型为深度学习编码器模型Skip-Thoughts。

结合第一方面的第七至八种可能实现方式，在第十一至十二种可能实现方式中，所述方法还包括：

增加与筛选出的问句模板对应的答案，与筛选出的问句模板形成完整的问句模板问答对，保存至模板库。

第二方面，提供了一种问句模板自动生成装置，其特征在于，包括：

准备模块，用于准备问句日志语料；分词和词性标注模块，用于进行分词和词性标注；命名实体识别模块，用于进行命名实体识别和替换；语义替换模块，用于进行语义替换；频繁项集挖掘模块，用于进行频繁项集挖掘，生成问句模板。

结合第二方面，在第一种可能实现方式中，所述准备模块包括获取模块和预处理模块，所述获取模块用于获取问句日志语料，所述预处理模块用于对问句日志语料进行预处理，包括标点符号去除、非法符号去除、单词大小写转换。

结合第二方面，在第二种可能实现方式中，所述命名实体识别模块用于：对问句日志语料中出现的包括时间、数字和/或地名的通用实体进行命名实体识别，并将所述通用实体替换成对应的实体标签。

结合第二方面，在第三种可能实现方式中，所述语义替换模块用于：将问句日志语料中问句分词后的词通过语义网搜索，根据词的释义将相同或相似释义的词抽象统一为标签，并进行相应替换，生成由命名实体和语义替换后的语义概念构成的符号标签序列。

结合第二方面的第三种可能实现方式，在第四种可能实现方式中，所述频繁项集挖掘模块用于：根据预设频次阈值范围和预设项集长度阈值范围，利用预定关联规则算法从所述符号标签序列中筛选频繁项集，按照项的默认顺序形成的序列以生成问句模板。

结合第二方面的第三至四种可能实现方式，在第五至六可能实现方式中，所述装置还包括：

句向量表征模块，用于利用预设句向量模型对筛选出的问句模板下的问句进行句向量表征；

聚类紧密度计算模块，用于利用以下计算公式计算出所述问句模板的聚类紧密度：

筛选模块，用于根据预设的模板聚类紧密度阈值，筛选出聚类紧密度大于该紧密度阈值的问句模板；

确定保存模块，用于将筛选出的问句模板在模板库中进行查找对比，若模板库不存在筛选出的问句模板，将筛选出的问句模板保存至模板库；

结合第二方面的第五至六种可能实现方式，在第七至八种可能实现方式中，所述预设句向量模型为深度学习编码器模型Skip-Thoughts。

结合第二方面的第五至六种可能实现方式，在第九至十种可能实现方式中，所述装置还包括：

答案添加模块，用于增加与筛选出的问句模板对应的答案，与筛选出的问句模板形成完整的问句模板问答对，保存至模板库。

本发明实施例提供的技术方案带来的有益效果是：

1、通过语义替换步骤，根据释义将多词一义的词进行抽象统一，从而增加了语义的泛化能力；

2、通过进行频繁项集挖掘，从候选项集找频繁项集，生成问句模板，提高了问句模板生成的效率，大量节约了人工资源；

3、通过根据预设项集频次阈值范围和预设项集长度阈值范围，从频繁项集中筛选出符合要求的项集，以生成问句模板，能够聚类出具有相似结构和公共词序列的句子，获得了较高质量的问句模板；

4、利用预设句向量模型句向量表征、计算聚类紧密度以及筛选符合要求的问句模板，能够实现在语义维度对生成模板的质量评估，从而获得准确度更高的高质量问句模板；

5、将筛选出的问句模板在模板库中进行查找对比，若模板库不存在筛选出的问句模板，将筛选出的问句模板保存至模板库，便于生成模板在模板库的有效更新；

6、增加与筛选出的问句模板对应的答案，与筛选出的问句模板形成完整的问句模板问答对，保存至模板库，确保模板库中模板问答对的完整性，实现自动生成问句模板的答案匹配。

总得来说，本发明实施例提供的问句模板自动生成方法及装置，不仅能够高效地自动生成问句模板，并且能对生成的问句模板进行质量评估，自主的持续扩展或更新问句模板库，提升智能问答***知识库的质量，可在智能问答等需要客服的技术领域进行广泛的推广及应用。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的问句模板自动生成方法流程图；

图2是本发明实施例2提供的问句模板自动生成方法流程图；

图3是本发明实施例3提供的问句模板自动生成装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

本发明的目的是为了解决在智能问答***的模板匹配技术中，问句模板的生成和评估的问题。从问答***的问句日志中，本发明实施例提供的问句模板自动生成方法及装置通过从问句日志语料中挖掘频繁项集，可自动生成问答***的问句模板候选集，从而实现自动生成问句模板以及对模板质量进行评估，建立智能问答***的自学习机制。与传统利用人工规则建立模板的方法相比，本方法及装置不仅提高了问句模板生成的效率，大量节约了人工资源，而且能对生成的问句模板进行评估，自主的持续扩展问句模板库，提升智能问答***知识库的质量，因此本发明实施例提供的问句模板自动生成方法及装置可在智能问答等需要客服的技术领域进行广泛的推广及应用。

实施例1

图1是本发明实施例提供的问句模板自动生成方法流程图。如图1所示，本发明实施例提供的问句模板自动生成方法，包括以下步骤：

101、准备问句日志语料。

具体的，获取问句日志语料，并对问句日志语料进行预处理，包括但不限于标点符号去除、非法符号去除、单词大小写转换等。

102、对日志语料进行分词和词性标注。

具体的，结合行业词典的分词方法对日志语料进行分词。根据需要或行业的不同，可创建不同种类的行业词典，尤其是涉及到具体垂直行业时，采用结合行业词典的分词方法对相应日志语料进行分词，能够取得较好的分词效果。

103、进行命名实体识别和替换。

具体的，对问句日志语料中出现的包括时间、数字和/或地名的通用实体进行命名实体识别，并将通用实体替换成对应的实体标签。

需要说明的是，上述日志语料预处理、分词和词性标注以及命名实体识别和替换是自然语言处理领域比较常用的语句分析处理技术，也可以采用现有技术中任何可能的技术手段或方式实现上述几个过程，为避免累赘，此处不作详细介绍。

104、进行语义替换。

具体的，将问句日志语料中问句分词后的词通过语义网搜索，根据词的释义将相同或相似释义的词抽象统一为标签，并进行相应替换，生成由命名实体和语义替换后的语义概念构成的符号标签序列。这里语义网优选地采用中文语义网HowNet。该操作过程的目的是，通过语义抽象增加语义的泛化能力，句子中不能在语义网找到或者不能通过命名实体识别的词可以直接忽略。

105、进行频繁项集挖掘，生成问句模板。

具体的，通过设定阈值范围，从问句语料日志的候选项集中获得频繁项集，生成问句模板。对转化为符号序列的日志语料进行模板挖掘，模板生成的关键是从大量不同的问句变换后的标签符号序列中聚类出频繁项集，这些频繁项集能在一定程度上能在表达句式骨干部分，从而根据聚类出的频繁项集实现问句模板的自动生成。优选地，根据预设频次阈值范围和预设项集长度阈值范围，利用预定关联规则算法从符号标签序列中获得期望的频繁项集，以生成问句模板。也就是说，采用预定关联规则算法进行频繁项集挖掘，从候选项集找频繁项集。这里，预定关联规则算法可以根据需要选择采用现有技术中任何可能的相关关联规则算法，优选地采用Apriori算法。

实施例2

图2是本发明实施例2提供的问句模板自动生成方法流程图。如图2所示，本发明实施例提供的问句模板自动生成方法，包括以下步骤：

201、获取问句日志语料，并对问句日志语料进行预处理，包括但不限于标点符号去除、非法符号去除、单词大小写转换。

需要注意的是，这里问句日志语料的获取方法可以采用现有技术中任何可能的获取方法，本发明实施例不对其加以特别限定；实现日志语料预处理的过程或方式也不限于上述内容，可以采用现有技术中任何可能的技术手段或方式，在此不一一赘述。

202、结合行业词典的分词方法对所述日志语料进行分词以及词性标注。

根据需要或行业的不同，可创建不同种类的行业词典，尤其是涉及到具体垂直行业时，采用结合行业词典的分词方法对相应日志语料进行分词，能够取得较好的分词效果。

需要注意的是，上述202步骤不限于上述操作方式，可以采用现有技术中任何可能的方式或方法，本发明实施例不对其加以特别限定。

203、对问句日志语料中出现的包括时间、数字和/或地名的通用实体进行命名实体识别，并将通用实体替换成对应的实体标签。

需要说明的是，上述命名实体识别和替换也可以采用现有技术中任何可能的技术手段或方式实现，为避免累赘，此处不作详细介绍。

204、将问句日志语料中问句分词后的词通过语义网搜索，根据词的释义将相同或相似释义的词抽象统一为标签，并进行相应替换，生成由命名实体和语义替换后的语义概念构成的符号标签序列。

由于中文里存在大量的一义多词的情况，希望把具体的词抽象成一个词义表示，以便增加语义的泛化能力。这里优选地使用中文语义网HowNet进行语义抽象替换。具体操作方式为，将分词后的词在语义网进行查找，语义网中有对词的释义，根据词的释义将相同或相似释义的词抽象统一为标签，并进行相应替换。例如，词“肝炎”在HowNet中的定义为“disease”，而“感冒”在语义网中对应的也是“disease”，在语句中这些代表“疾病”的词统一替换成“disease”，从而达到语义抽象的目的。而对于句子中不能在语义网找到或者不能通过命名实体识别的词，可以直接忽略。该步骤处理后，语料问句从词的组合序列转换成命名实体和语义替换后的符号序列。

205、根据预设频次阈值范围和预设项集长度阈值范围，利用预定关联规则算法从所述符号标签序列中筛选频繁项集，按照项的默认顺序形成的序列以生成问句模板。

具体的，对转化为符号序列的日志语料进行模板挖掘，模板生成的关键是从大量不同的问句变换后的标签符号序列中聚类出频繁项集，这些频繁项集能在一定程度上能在表达句式骨干部分，从而根据聚类出的频繁项集实现问句模板的自动生成。也就是说，采用预定关联规则算法进行频繁项集挖掘，从候选项集找频繁项集。这里，预定关联规则算法可以根据需要选择采用现有技术中任何可能的相关关联规则算法，优选地采用Apriori算法。

为了获得相对较好的泛化能力和语义紧密度，可以对之前步骤生成的模板质量进行评估，从而获得质量更好的问句模板。根据预设序列频次阈值范围和预设序列长度阈值范围，选择符合要求的相应候选模板序列。具体地，该处的两个阈值指标，一是该序列在不同语料问句中出现的频次k1，二是该序列长度k2，二是该序列在不同语料问句中出现的频次k2。k1和k2一般可以按照经验设置，其中优选地，k1设置为[3,5]之间，原因是长度低于3的模板虽然泛化能力较强，但是语义紧密度较低；长度大于5的模板语义紧密度较好，但是泛化能力较差。在适当的阈值范围情况下，本步骤能够聚类出具有相似结构和公共词序列的句子，获得了较高质量的问句模板。

举例说明，日志语料中有这样几个问句，“请问有遗传病能购买吗？”，“有甲亢的可以买吗？”，“有轻度糖尿病的可以投保？”。通过之前的步骤处理，三个句子分别转换成下面三个符号序列：

[question verb_you disease question_feasible apply_v question_polar]；

[disease question_feasible apply_v question_polar]；

[disease question_feasible apply_v]。

为方便说明，将三个序列中的语义概念分别以字母“a b c d e”等代替。序列转换为[a b c d e f]，[c d e f]，[c d e]，通过频繁项集挖掘算法即预定关联规则算法，分别设定频次以及项集长度的阈值，这里设定频次和项集的阈值都为3，首先计算得到序列中出现的频繁项集为[c d e:3]，[c d:3]，[c e:3]，[c:3]，[d:3]，[e:3]等，此处只列出了在总的序列中一共出现了3次的序列组合。序列中冒号前面的字母序列组合表示的是在不同问句序列中的频繁项集，冒号后面的数字代表的是该频繁项集在语料总体中出现的频次。例如序列[c d e]，在举例的三个序列中，都以该顺序出现过。那么可以得到[c d e]这个序列符合要求，这个符号序列可以作为这举例的三句话最后生成的模板。

需要说明的是，上述205步骤采用预定关联规则算法进行频繁项集挖掘，从候选项集找频繁项集，生成问句模板的举例说明只是示例性的，在不偏离本发明实施例该步骤的具体发明构思的情况下，可以采用其他任何可能的过程或方式，本发明实施例不对其加以特别限定。

而为了进一步提高问句模板的质量，通过上述步骤句子中抽象出的模板可以在结构特征上表征相似的问句，但是模板下对应的不同问句在语义上不一定能完全满足相似性，还需要在语义维度进行进一步评估，该过程的实现方案详见下述步骤206～209。

206、利用深度学习编码器模型Skip-Thoughts对筛选出的问句模板下的问句进行句向量表征。

该步骤对聚类出来的问句进行聚类紧密性计算，确保一个模板下的不同问句具有高度的语义相似性，从而在语义维度上对生成的模板进行评估。该步骤使用句向量的方式表征问句，句向量模型采用谷歌公司开源的Skip-Thoughts算法，该算法为非监督模型，将句子表示成一个固定维度的向量，在大规模语料下可很好的表示语义。该模型为离线训练，训练过程中以使用日志语料词向量为基础，在遇到未登录词的时候，优选地可以结合外部的中文***语料作为词扩展。

207、利用以下计算公式计算出问句模板的聚类紧密度：

通过该计算公式可以计算出多个类别的不同问句模板的聚类紧密度。其中，计算公式中，CP_j为计算得到的第j个问句模板的聚类紧密度，X_i为第j个问句模板下第i个问句的句向量，W_j为第j个问句模板对应的聚类的所有句向量的平均值；Ω_j为为第j个问句模板对应的聚类的所有句向量模长总和，i，j均为大于等于1的整数。

208、根据预设的模板聚类紧密度阈值，筛选出聚类紧密度大于该紧密度阈值的问句模板。示例性地，定义模板的聚类紧密度阈值k3，作为对步骤产生的候选模板评估的依据，筛选出聚类紧密性大于阈值的模板，通过该过程能够实现在语义维度对生成模板的质量评估，从而获得准确度更高的高质量问句模板。优选地，这里阈值k3的初始值设定，可以对原有模板库中随机抽取部分模板，计算每个对应的聚类紧密度，然后取平均值。

需要注意的是，上述208步骤不限于上述操作方式，可以采用现有技术中任何可能的方式或方法，本发明实施例不对其加以特别限定。

209、将筛选出的问句模板在模板库中进行查找对比，若模板库不存在筛选出的问句模板，将筛选出的问句模板保存至模板库。

210、增加与筛选出的问句模板对应的答案，与筛选出的问句模板形成完整的问句模板问答对，保存至模板库。

需要说明的是，上述209～210步骤操作过程中，在不偏离本发明实施例该步骤的具体发明构思的情况下，可以采用现有技术中任何可能的过程或方式，本发明实施例不对其加以特别限定。

实施例3

图3是本发明实施例3提供的问句模板自动生成装置结构示意图。如图3所示，本发明实施例提供的问句模板自动生成装置，包括：

准备模块1，用于准备问句日志语料。具体地，准备模块1包括获取模块和预处理模块，所述获取模块用于获取问句日志语料，所述预处理模块用于对问句日志语料进行预处理，包括标号符号去除、非法符号去除、单词大小写转换。

分词和词性标注模块2，用于进行分词和词性标注。具体的，根据需要或行业的不同，可创建不同种类的行业词典，尤其是涉及到具体垂直行业时，分词和词性标注模块2采用结合行业词典的分词方法对相应日志语料进行分词，能够取得较好的分词效果。

命名实体识别模块3，用于进行命名实体识别和替换。具体地，命名实体识别模块3用于：对问句日志语料中出现的包括时间、数字和/或地名的通用实体进行命名实体识别，并将所述通用实体替换成对应的实体标签。

语义替换模块4，用于进行语义替换。语义替换模块4用于：将问句日志语料中问句分词后的词通过语义网搜索，根据词的释义将相同或相似释义的词抽象统一为标签，并进行相应替换，生成由命名实体和语义替换后的语义概念构成的符号标签序列。

频繁项集挖掘模块5，用于进行频繁项集挖掘，生成问句模板。具体地，频繁项集挖掘模块5用于：根据预设频次阈值范围和预设项集长度阈值范围，利用预定关联规则算法从符号标签序列中筛选频繁项集，按照项的默认顺序形成的序列以生成问句模板。

优选地，上述问句模板自动生成装置还包括：

句向量表征模块6，用于利用预设句向量模型对聚类出的问句模板下的问句进行句向量表征；优选地，预设句向量模型为深度学习编码器模型Skip-Thoughts。

聚类紧密度计算模块7，用于利用以下计算公式计算出所述问句模板的聚类紧密度：

筛选模块8，用于根据预设的模板聚类紧密度阈值，筛选出聚类紧密度大于该紧密度阈值的问句模板；

确定保存模块9，用于将筛选出的问句模板在模板库中进行查找对比，若模板库不存在筛选出的问句模板，将筛选出的问句模板保存至模板库；

另外优选地，上述问句模板自动生成装置还包括：

答案添加模块10，用于增加与筛选出的问句模板对应的答案，与筛选出的问句模板形成完整的问句模板问答对，保存至模板库。

需要说明的是：上述实施例提供的问句模板自动生成装置在进行问句模板自动生成业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的问句模板自动生成装置与问句模板自动生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

综上所述，本发明实施例提供的问句模板自动生成方法及装置，相对于现有技术具有以下有意效果：

3、通过根据预设序列频次阈值范围和预设序列长度阈值范围，从频繁项集中筛选出符合要求的项集，以生成问句模板，能够聚类出具有相似结构和公共词序列的句子，获得了较高质量的问句模板；

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种问句模板自动生成方法，其特征在于，所述方法包括：

准备问句日志语料；

对所述日志语料进行分词和词性标注；

进行命名实体识别和替换；

进行语义替换；

进行频繁项集挖掘，生成问句模板。

2.根据权利要求1所述的方法，其特征在于，准备问句日志语料，包括：

3.根据权利要求1所述的方法，其特征在于，对所述日志语料进行分词和词性标注，包括：

结合行业词典的分词方法对所述日志语料进行分词。

4.根据权利要求1所述的方法，其特征在于，进行命名实体识别和替换，包括：

5.根据权利要求1所述的方法，其特征在于，进行语义替换，包括：

6.根据权利要求5所述的方法，其特征在于，进行频繁项集挖掘，生成问句模板，包括：

7.根据权利要求6所述的方法，其特征在于，进行频繁项集挖掘，生成问句模板，包括：

8.根据权利要求6或7所述的方法，其特征在于，所述方法还包括：

利用预设句向量模型对筛选出的问句模板的问句进行句向量表征；

利用以下计算公式计算出所述问句模板的聚类紧密度：

<mrow> <msub> <mover> <mrow> <mi>C</mi> <mi>P</mi> </mrow> <mo>&OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>&Omega;</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>&Omega;</mi> <mi>j</mi> </msub> </mrow> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>W</mi> <mi>j</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow>

9.根据权利要求8所述的方法，其特征在于，所述预设句向量模型为深度学习编码器模型Skip-Thoughts。

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

11.一种问句模板自动生成装置，其特征在于，包括：

准备模块，用于准备问句日志语料；

分词和词性标注模块，用于进行分词和词性标注；

命名实体识别模块，用于进行命名实体识别和替换；

语义替换模块，用于进行语义替换；

频繁项集挖掘模块，用于进行频繁项集挖掘，生成问句模板。

12.根据权利要求11所述的装置，其特征在于，所述准备模块包括获取模块和预处理模块，所述获取模块用于获取问句日志语料，所述预处理模块用于对问句日志语料进行预处理，包括标点符号去除、非法符号去除、单词大小写转换。

13.根据权利要求11所述的装置，其特征在于，所述命名实体识别模块用于：对问句日志语料中出现的包括时间、数字和/或地名的通用实体进行命名实体识别，并将所述通用实体替换成对应的实体标签。

14.根据权利要求11所述的装置，其特征在于，所述语义替换模块用于：将问句日志语料中问句分词后的词通过语义网搜索，根据词的释义将相同或相似释义的词抽象统一为标签，并进行相应替换，生成由命名实体和语义替换后的语义概念构成的符号标签序列。

15.根据权利要求14所述的装置，其特征在于，所述频繁项集挖掘模块用于：根据预设频次阈值范围和预设项集长度阈值范围，利用预定关联规则算法从所述符号标签序列中筛选频繁项集，按照项的默认顺序形成的序列以生成问句模板。

16.根据权利要求14或15所述的装置，其特征在于，所述装置还包括：

句向量表征模块，用于利用预设句向量模型对筛选出的问句模板的问句进行句向量表征；

17.根据权利要求16所述的装置，其特征在于，所述预设句向量模型为深度学习编码器模型Skip-Thoughts。

18.根据权利要求16所述的装置，其特征在于，所述装置还包括：