CN114238634B

CN114238634B - 正则表达式的生成方法及应用、装置、设备和存储介质

Info

Publication number: CN114238634B
Application number: CN202111518491.5A
Authority: CN
Inventors: 吴科; 吴立楠
Original assignee: Beijing Zhichi Zhongfu Technology Consulting Co ltd
Current assignee: Beijing Zhichi Zhongfu Technology Consulting Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-08-02
Anticipated expiration: 2041-12-13
Also published as: CN114238634A

Abstract

本申请实施例提供了正则表达式的生成方法及应用、装置、设备和存储介质，所述正则表达式的生成方法包括：获取样本语料库；确定样本语料库中的至少一个意图类簇；从意图类簇中确定种子句式，确定种子句式和对应意图类簇中每个语料的第一相似度，将第一相似度高于预设阈值的语料作为召回语料；对召回语料中的语料进行分词处理，获得分词结果，对分词结果中的分词进行聚类，获得至少一个词类簇；根据至少一个词类簇中的分词构建备选要素字典；根据备选要素字典，确定正则表达式。本申请实施例能够提高意图识别的效率，还能够提高意图识别的准确率。

Description

正则表达式的生成方法及应用、装置、设备和存储介质

技术领域

本申请实施例涉及意图识别技术领域，具体而言，涉及一种正则表达式的生成方法及应用、装置、设备和存储介质。

背景技术

随着互联网技术和电子商务的发展，越来越多的商务活动迁移到线上进行，随之而来的也就是在线客服***需求的***式增长，由此也导致人工在线客服***难以满足在线客服***的需求。智能在线客服***能够弥补人工在线客服***的缺陷，满足对在线客服***日益增长的需求。

智能在线客服***的本质是智能问答，而智能问答的基础之一就是意图识别，只有能够准确的识别出用户的意图，才能保证智能问答的准确性。错误的意图识别不仅会带来错误的问答，还会失去客户的信任，严重影响问答***的商业价值。因此，智能在线客服***领域的意图识别对准确率的要求非常高。然而，智能在线客服***领域的词汇大都主要集中了某领域的词汇，使意图识别语料的意图分类非常精细，不同意图之间语料特征之间的差距很小，甚至有的意图可能会出现意图特征的重合，例如：“吃饭吧”和“吃饭了吧”，其中第二句话只比第一句话多了一个常用词“了”就导致了这两句话的意图完全不同。而且智能在线客服***领域的词汇之间微弱的顺序改变也会导致意图的截然不同，例如：“你有没这东西”和“你没这东西”这两句话的意图截然不同。由于智能在线客服***领域不同意图之间的语料特征之间的差异小，或者是改变个别词汇之间的语序顺序，且这些词汇都是常用词汇，也导致了目前主流的意图识别算法(例如相似度分类算法)难以对智能在线客服***领域进行特征捕捉，从而也难以保证智能在线客服***领域的意图识别具有较高的准确率。

发明内容

本申请实施例旨在解决的技术问题在于针对上述现有技术的不足，提供一种正则表达式的生成方法及应用、装置、设备和存储介质。

为解决上述问题，本申请实施例第一方面提供了一种正则表达式的生成方法，包括：

获取样本语料库；

确定所述样本语料库中的至少一个意图类簇，各所述意图类簇中包括与同一个意图对应的语料；

从所述意图类簇中确定种子句式，确定所述种子句式和对应意图类簇中每个语料的第一相似度，将所述第一相似度高于预设阈值的语料作为召回语料；

对所述召回语料中的语料进行分词处理，获得分词结果，对所述分词结果中的分词进行聚类，获得至少一个词类簇；

根据所述至少一个词类簇中的分词构建备选要素字典，所述备选要素字典中包括以所述至少一个词类簇中的分词作为的备选要素，以及所述备选要素的至少一个紧邻分词以及出现次数，所述紧邻分词为语料中位于所述备选要素之后的第一个分词；

根据所述备选要素字典，确定所述正则表达式。

进一步地，所述确定所述种子句式和对应意图类簇中每个语料的第一相似度，将所述第一相似度高于预设阈值的语料作为召回语料，包括：

确定每个所述种子句式的第一向量和对应意图类簇中每个语料的第一向量，所述种子句式的第一向量根据所述种子句式中各分词的词向量获得，所述语料的第一向量根据所述语料中各分词的词向量获得；

确定每个所述种子句式的向量和对应意图类簇中每个语料的向量的第二相似度，将所述第二相似度高于第一预设阈值的语料作为粗召回语料；

确定所述种子句式的平均Bert向量和所述粗召回语料中每个语料的Bert向量，所述种子句式的平均Bert向量根据各个所述种子句式的Bert向量获得；

计算所述种子句式的平均Bert向量和粗召回语料中每个语料的Bert向量的第三相似度，将所述第三相似度高于第二预设阈值的语料作为召回语料。

进一步地，所述对所述分词结果中的分词进行聚类，获得至少一个词类簇，包括：

统计所述分词结果中每个分词在所述召回语料中出现的次数，将所述每个分词按照出现的次数从大至小排序；

从第一个分词开始遍历，确定当前遍历的分词和排序位于所述当前遍历分词之后的后续分词的词向量间的第四相似度，将所述分词与所述第四相似度高于第三预设阈值的后续分词进行聚类，以获得至少一个词类簇。

进一步地，所述根据所述备选要素字典，确定所述正则表达式，包括：

从所述备选要素字典确定起始要素和终止要素，所述起始要素为所述备选要素字典中出现在所述意图类簇的语料首端次数最多的分词，所述终止要素为所述备选要素字典中出现在所述意图类簇的语料尾端次数最多的分词；

根据所述起始要素、所述终止要素和所述备选要素的至少一个所述紧邻分词以及出现的次数，对所述意图类簇中的语料进行组合，生成所述意图类簇的正则表达式。

进一步地，所述根据所述起始要素、所述终止要素和所述备选要素的至少一个紧邻分词以及出现的次数，对所述意图类簇中的语料进行组合，生成所述意图类簇的正则表达式，包括：

从所述起始要素开始遍历，确定当前遍历的要素序列；

确定所述当前遍历的要素序列中的最后一个要素的至少一个紧邻分词，将所述至少一个紧邻分词中的每个紧邻分词分别置于所述当前要素序列的尾部，获得下一次遍历的要素序列；

在所述意图类簇的语料中搜索具有所述下一次遍历的要素序列的语料，若存在，则以所述下一次遍历的要素序列中的最后一个要素开始下一次遍历，直至搜索到终止要素或遍历完所述意图类簇中的所有语料，获得候选要素序列；

将所述候选要素序列中的分词通过正则符号链接，生成所述意图类簇的正则表达式。

进一步地，所述确定所述样本语料库中的至少一个意图类簇，包括：

对所述样本语料库进行去噪处理，获得去噪处理后的样本语料库；

对所述去噪处理后的样本语料库进行DBSCAN密度聚类处理，获得至少一个所述意图类簇。

本申请实施例第二方面提供了一种意图识别方法，包括：

获得待识别的句子；

根据预先确定的正则表达式，对所述句子进行意图识别，获得意图识别结果；

其中，所述正则表达式是根据第一方面任一项所述的正则表达式的生成方法确定的。

本申请实施例第三方面提供了一种正则表达式生成装置，包括：

语料库获取模块，用于获取样本语料库；

意图类簇获取模块，用于确定所述样本语料库中的至少一个意图类簇，各所述意图类簇中包括与同一个意图对应的语料；

召回语料获取模块，用于从所述意图类簇中确定种子句式，确定所述种子句式和对应意图类簇中每个语料的第一相似度，将所述第一相似度高于预设阈值的语料作为召回语料；

词类簇获取模块，用于对所述召回语料中的语料进行分词处理，获得分词结果，对所述分词结果中的分词进行聚类，获得至少一个词类簇；

备选要素词典获取模块，用于根据所述至少一个词类簇中的分词构建备选要素字典，所述备选要素字典中包括以所述至少一个词类簇中的分词作为的备选要素，以及所述备选要素的至少一个紧邻分词以及出现次数，所述紧邻分词为语料中位于所述备选要素之后的第一个分词；

正则表达式获取模块，用于根据所述备选要素字典，确定所述正则表达式。

本申请实施例第四方面提供了一种意图识别装置，包括：

句子获取模块，用于获得待识别的句子；

意图识别模块，用于根据预先确定的正则表达式，对所述句子进行意图识别，获得意图识别结果；

其中，所述正则表达式是根据第三方面所述的正则表达式生成装置确定的。

本申请实施例所述的意图识别装置的有益效果与所述意图识别方法的有益效果相同，此处不再赘述。

本申请实施例第五方面提供了一种电子设备，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如第一方面或第二方面任一项所述的方法。

本申请实施例第六方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面任一项所述的方法。

本申请实施例提供的正则表达式的生成方法及应用、装置、设备和存储介质，通过对样本语料库进行分词和提取之后，自动生成正则表达式，不需要依赖人工总结而获得所需要的正则表达式，减少了正则表达式的获取难度，也大大提高了获取正则表达式的效率，通过本申请实施例提供的正则表达式的生成方法，不仅能提高生成正则表达式的效率，最大程度上节省人工，还能提高正则表达式的准确率，避免了人工总结的误判或漏判现象。

附图说明

图1为本申请实施例中提供的正则表达式的生成方法的流程示意图；

图2为本申请实施例中样本语料库聚类生成多个意图类簇的示意图；

图3为本申请实施例中提供的意图识别方法的流程示意图；

图4为本申请实施例中提供的正则表达式生成装置的结构示意图；

图5为本申请实施例中提供的意图识别装置的结构示意图；

图6为本申请实施例中提供的电子设备的结构示意图。

具体实施方式

在现有技术中，智能在线客服***领域的词汇大都主要集中了某领域的词汇，使意图识别语料的意图分类非常精细，不同意图之间语料特征之间的差距很小，甚至有的意图可能会出现意图特征的重合，例如：“吃饭吧”和“吃饭了吧”，其中第二句话只比第一句话多了一个常用词“了”就导致了这两句话的意图完全不同。而且智能在线客服***领域的词汇之间微弱的顺序改变也会导致意图的截然不同，例如：“你有没这东西”和“你没这东西”这两句话的意图截然不同。由于智能在线客服***领域不同意图之间的语料特征之间的差异小，或者是改变个别词汇之间的语序顺序，且这些词汇都是常用词汇，也导致了目前主流的意图识别算法(例如相似度分类算法)难以对智能在线客服***领域进行特征捕捉，从而也难以保证智能在线客服***领域的意图识别具有较高的准确率。

本申请提供了一种正则表达式的生成方法及应用、装置、设备、计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

需要说明的是，本申请的实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1为本申请实施例中提供的正则表达式的生成方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤S010、获取样本语料库；

将智能在线客服***中的源数据作为样本语料库，对样本语料库中的所有语料进行去噪处理，将样本语料库的语料中的特殊符号和与问答无关的信息去除掉，使样本语料库的语料的有效信息更加稠密，降低无关信息对样本语料库的影响，提高意图识别的准确性。

步骤S020、确定样本语料库中的至少一个意图类簇，各意图类簇中包括与同一个意图对应的语料；

图2为本申请实施例中样本语料库聚类生成多个意图类簇的示意图。结合图2所示，对样本语料库中的所有语料采用DBscan(Density-Based Spatial Clustering ofApplications with Noise)密度聚类算法进行聚类，获得若干个类簇，通过观察各个类簇中的语料并人工定义各个类簇相应的用户意图，获得若干个意图类簇，每个意图类簇中均包括与用一个意图对应的语料。

步骤S030、从意图类簇中确定种子句式，确定种子句式和对应意图类簇中每个语料的第一相似度，将第一相似度高于预设阈值的语料作为召回语料；

每个意图类簇中语料的数量很多，若直接进行后续的处理，则不仅会影响处理效率，也会降低意图识别的准确率，但每个意图类簇都有能够代表相应意图的种子句式，因此可以根据种子句式对每个意图类簇中的语料进行召回，以提高意图识别的处理效率和准确率。

在智能在线客服***领域在针对问答***中的任一知识点进行扩充时，可以将该知识点对应的标准问、扩展问、标准答或拓展答中的任意一个句式作为种子句式，种子句式是一类语料中具有代表性的句子，可以通过人工挑选确定任一类簇对应的种子句式，例如：“这是什么平台我都听不懂，哎”、“听不懂”、“你是哪个，我听不懂”、“我听不懂你说的啥”、“这个是什么？听不懂你说话呀”，就可以以“听不懂”作为种子句式。

从意图类簇中确定了种子句式之后，确定种子句式和对应意图类簇中每个语料的第一相似度，其中第一相似度包括第二相似度和第三相似度，具体地，步骤S030包括如下步骤：

步骤S031、确定每个种子句式的第一向量和对应意图类簇中每个语料的第一向量，种子句式的第一向量根据种子句式中各分词的词向量获得，语料的第一向量根据语料中各分词的词向量获得；

确定每个种子句式的向量和对应意图类簇中每个语料的向量的第二相似度，将第二相似度高于第一预设阈值的句子作为粗召回语料。

其中，每个种子句式的第一向量和对应意图类簇中每个语料的第一向量通过如下方法获得：

根据预训练的词向量模型，获取每个意图类簇中的每个分词的词向量；

计算每个意图类簇中的每个分词的IDF(Inverse Document Frequency，逆文档频率)值，并统计每个分词在相应的意图类簇中出现的频次(即词频，Term Frequency)，获得每个分词的TF-IDF(Term Frequency-inverse Document Frequency)值；

将组成每个种子句式的各个分词乘以对应的分词的TF-IDF值，并加权求平均，得到每个种子句式的第一向量，将组成每个语料的各个分词乘以对应的分词的TF-IDF值，并加权求平均，得到每个语料的第一向量；也即，一个句子由若干个分词组成，将句子中每个分词乘以该分词的TF-IDF值，并加权求平均，获得该句子的第一向量。

获得每个种子句式的第一向量和对应意图类簇中每个语料的第一向量之后，计算每个种子句式的第一向量和对应意图类簇中每个语料的第一向量的余弦相似度，并将每个种子句式的第一向量和对应意图类簇中每个语料的第一向量的余弦相似度作为第二相似度，将第二相似度从大至小进行排名，将第二相似度高于第一预设阈值的语料作为粗召回语料，以每个种子句式的第一向量和对应意图类簇中每个语料的第一向量的余弦相似度作为第二相似度来判断种子句式和对应意图类簇中语料的相似程度，以丰富对应的意图类簇，提高意图识别的准确性。

需要说明的是，本申请的实施例对第一预设阈值的大小不做进一步的限定，本领域的技术人员可以根据实际情况确定合适的第一预设阈值。

通过上述步骤虽然能够从每个意图类簇中召回一批语料，但由于特征粒度比较粗，且组成每个语料中的各个分词之间的关系和界限比较模糊，导致粗召回语料的精度不太高，需要对粗召回语料进行进一步的处理，获得精度较高的召回语料。

为了能够获得精度较高的召回语料，在上述实施例的基础上，作为一种优选实施例，步骤S030还包括：

步骤S032、确定种子句式的平均Bert向量和粗召回语料中每个语料的Bert向量，种子句式的平均Bert向量根据各个种子句式的Bert向量获得；

计算种子句式的平均Bert向量和粗召回语料中每个语料的Bert向量的第三相似度，将第三相似度高于第二预设阈值的语料作为召回语料。

其中，种子句式的平均Bert向量是通过如下方法获得：获取每个意图类簇中的各个种子句式的Bert向量，计算各个种子句式的Bert向量的平均值，获得种子句式的平均Bert向量。

各个种子句式的Bert向量和粗召回语料中每个语料的Bert向量可以通过预先训练的Bert模型获得，本申请的实施例中对Bert向量的获取方式不做进一步地限定，本领域的技术人员可以根据实际情况获取。

获得种子句式的平均Bert向量和粗召回语料中每个语料的Bert向量之后，计算种子句式的平均Bert向量和粗召回语料中每个语料的Bert向量的余弦相似度，并将种子句式的平均Bert向量和粗召回语料中每个语料的Bert向量的余弦相似度作为第三相似度，将第三相似度从大至小进行排名，将第三相似度高于第二预设阈值的语料作为召回语料，以种子句式的平均Bert向量和粗召回语料中每个语料的Bert向量的余弦相似度作为第三相似度来判断种子句式的平均Bert向量和粗召回语料中每个语料的相似程度，以进一步提高意图识别的准确性。

需要说明的是，本申请的实施例对第二预设阈值的大小不做进一步的限定，本领域的技术人员可以根据实际情况确定合适的第二预设阈值。

步骤S040、对召回语料中的语料进行分词处理，获得分词结果，对分词结果中的分词进行聚类，获得至少一个词类簇；

其中，可以通过分词工具对召回语料中的语料进行分词处理，本申请的实施例中对分词处理的方法不做进一步地限定，本领域的技术人员可以根据实际情况进行分词处理。

进行分词处理后，分词结果中包含了很多分词，分词结果中有的分词可能会出现多次，有的分词表述的意思相同，但是表述不同，为了避免分词结果冗余，对意图识别造成干扰，影响意图识别的准确性。获得分词结果后，对分词结果中的分词进行聚类，获得至少一个词类簇。

在上述实施例的基础上，作为一种优选实施例，对分词结果中的分词进行聚类，获得至少一个词类簇，包括：

统计分词结果中每个分词在召回语料中出现的次数，将每个分词按照出现的次数从大至小排序；

从第一个分词开始遍历，确定当前遍历的分词和排序位于当前遍历分词之后的后续分词的词向量间的第四相似度，将分词与第四相似度高于第三预设阈值的后续分词进行聚类，以获得至少一个词类簇。

具体地，将每个分词按照出现的次数从大至小排序之后，按照分词的排序顺序对分词进行遍历，从第一个分词开始遍历，以当前遍历的分词为基准分词，并依次计算基准分词和排序位于基准分词之后的各个后续分词的词向量的相似度，以基准分词和排序位于基准分词之后的各个后续分词的词向量的相似度作为第四相似度，将基准分词和词向量的相似度高于第三预设阈值的后续分词进行聚类，以获得至少一个词类簇。例如：分词结果按照出现的次数从大至小排序之后，依次为“听不懂”、“什么”、“说”、“啊”、“不”，获取这几个分词的词向量，先以“听不懂”为基准分词，并依次计算“听不懂”和“什么”之间的词向量的相似度，“听不懂”和“说”之间的词向量相似度，“听不懂”和“啊”之间的词向量相似度，“听不懂”和“不”之间的词向量相似度，再以“什么”为基准分词，依次计算“什么”和“说”之间的词向量相似度，“什么”和“啊”之间的词向量相似度，“什么”和“不”之间的词向量相似度，再以“说”为基准分词，依次计算“说”和“啊”之间的词向量相似度，“说”和“不”之间的词向量相似度，最后以“啊”为基准分词，计算“啊”和“不”之间的词向量相似度；若“听不懂”和“说”之间的词向量相似度以及“听不懂”和“啊”之间的词向量相似度均高于第三预设阈值，则将“听不懂”、“说”和“啊”归为一类，作为一个词类簇。

由于是按照每个分词出现的次数从大至小排序之后进行遍历，在遍历每个分词的时候可能会出现一个分词先前已经被归类于第一词类簇，但在后续的遍历过程中，发现该分词也可以归类于第二词类簇，为了避免词类簇中的分词出现重合，影响意图识别的准确性，在上述实施例的基础上，作为一种优选实施例，若出现上述情况，则将该分词与第二词类簇中的基准分词的词向量相似度与预先设置的值T进行比较，若该分词与第二词类簇中的基准分词的词向量相似度高于预先设置的值T，则将该分词从第一词类簇中剔除，并归类至第二词类簇中，若该分词与第二词类簇中的基准分词的词向量相似度低于预先设置的值T，则该分词继续保留在第一词类簇中。例如：遍历1和排序位于1之后的后续分词后得到第一词类簇{1,3,10}，再继续遍历2和排序位于2之后的后续分词，将2和排序位于2之后的后续分词得到的词类簇称为第二词类簇，计算2和3的词向量相似度，若2和3的词向量相似度高于预先设置的值T，则将3从第一词类簇中剔除，并将3归入第二词类簇，新的第一词类簇为{1,10}，第二词类簇为{2,3}；若2和3的词向量相似度不高于预先设置的值T，则第一词类簇仍为{1,3,10}，第二词类簇为{2}，并继续计算2和剩余的4、5、6……的词向量相似度，直至计算完排序位于2之后的所有后续分词与2的词向量相似度，再依次计算3和排序位于3之后的所有后续分词的词向量相似度，4和排序位于4之后的所有后续分词的词向量相似度，……，N和排序位于N之后的所有后续分词的词向量相似度，直至遍历结束，获得的各个词类簇中的基准分词和排序位于基准分词之后的后续分词的词向量相似度均高于第三预设阈值，且词向量的相似度均不高于预先设置的值T。

需要说明的是，本申请的实施例对第三预设阈值和预先设置的值T的大小不做进一步地限定，本领域的技术人员可以根据实际情况设定第三预设阈值和预先设置的值T，只要能够保证预先设置的值T大于第三预设阈值即可。

步骤S050、根据至少一个词类簇中的分词构建备选要素字典，所述备选要素字典中包括以至少一个词类簇中的分词作为的备选要素，以及备选要素的至少一个紧邻分词以及出现次数，其中，紧邻分词为语料中位于备选要素之后的第一个分词。

例如：语料为“我喜欢吃西瓜”，若备选要素为“喜欢”，则紧邻分词为“吃”。

根据上述分词聚类处理后，得到若干个词类簇，但为了能够找到与各个意图类簇中的语料更匹配的词类簇和备选要素字典，在上述实施例的基础上，作为一种优选实施例，获取备选要素字典包括：

统计每个词类簇中各个分词出现的次数，将每个词类簇中各个分词出现的次数相加，获得每个词类簇的总次数，将各个词类簇按照总次数进行排序，取排序位于前N1(N1大于等于1，且为整数)的词类簇作为候选词类簇，遍历候选词类簇中的分词，并对候选词类簇中需要进一步细分的分词进行细分，获得新的分词结果，按照步骤S040中方法对新的分词结果中的分词进行聚类，获得若干个新的词类簇，统计每个新的词类簇中各个分词出现的次数的总和，获得每个新的词类簇的总次数，将各个新的词类簇按照总次数进行排序，取排序位于前N2(N2大于等于1，且为整数)的词类簇作为备选要素字典，备选要素字典中的各个分词作为备选要素，统计备选要素字典中各个分词的紧邻分词以及各个分词的出现次数。

其中，遍历候选词类簇中的分词，并对候选词类簇中需要进一步细分的分词进行细分时，可以根据分词工具来判断是否需要对候选词类簇中的分词进行细分，也可以人工判断是否需要对候选词类簇中的分词进行细分，候选词类簇中的分词是否需要进行细分取决于备选要素字典中的各个分词是否为最小粒度的分词，最小粒度的分词应该能够灵活地出现在各个不同的环境中，它的上下文可以搭配很多分词。

需要说明的是，本申请的实施例中对N1和N2的具体数值不做进一步地限定，本领域的技术人员可以根据实际情况进行设置，例如：N1为15，N2为6，当然本领域的技术人员也可以根据总词类簇的个数按比例设置N1和N2，例如总词类簇个数的50％为N1，或总词类簇个数的40％为N1等等，新的总词类簇个数的50％为N2，或新的总词类簇个数的40％为N2等等。

步骤S060、根据备选要素字典，确定正则表达式。

在上述步骤中确定了各个意图类簇的备选要素字典，但备选要素字典在各个意图类簇中是通过什么顺序组合成正则表达式尚不清楚，本步骤通过以备选要素字典为线索，遍历各个意图类簇中的语料以找到各个要素是以什么顺序生成各个意图类簇下的正则表达式。

具体地，步骤S060包括：

从备选要素字典确定起始要素和终止要素，其中，起始要素为备选要素字典中出现在意图类簇的语料首端次数最多的分词，终止要素为备选要素字典中出现在意图类簇的语料尾端次数最多的分词；

根据起始要素、终止要素和备选要素的至少一个紧邻分词以及出现的次数，对意图类簇中的语料进行组合，生成意图类簇的正则表达式。

其中，根据起始要素、终止要素和备选要素的至少一个紧邻分词以及出现的次数，对意图类簇中的语料进行组合，生成意图类簇的正则表达式，包括：

从起始要素开始遍历，确定当前遍历的要素序列；

确定当前遍历的要素序列中最后一个要素的至少一个紧邻分词，将至少一个紧邻分词中的每个紧邻分词分别置于当前要素序列的尾部，获得下一次遍历的要素序列；

在意图类簇的语料中搜索具有下一次遍历的要素序列的语料，若存在，则以下一次遍历的要素序列中的最后一个要素开始下一次遍历，直至搜索到终止要素或遍历完意图类簇中的所有语料，获得候选要素序列。

具体地，备选要素字典中起始要素后出现紧邻分词为第一分词，备选要素字典中第一分词后出现的紧邻分词为第二分词，备选要素字典中第二分词后出现的紧邻分词为第三分词，……，备选要素字典中第N-1分词后出现的紧邻分词为第N分词，其中，N为大于1的正整数。每个意图类簇中有若干个语料，对若干个语料从起始要素开始遍历，将若干个语料中有起始要素的语料筛选出来，作为当前遍历的要素序列，将当前遍历的要素序列中有第一分词的要素序列筛选出来，作为下一次遍历的要素序列，若存在，则将下一次遍历的要素序列中有第二分词的要素序列筛选出来，并开始下一次遍历，直至搜索到终止要素为止，获得候选要素序列。

但是在遍历的过程中，有可能会出现搜索不到终止要素的情况，若出现该情况，则取要素序列中的最后一个要素的出现次数位于前n个紧邻分词进行遍历，直至遍历完意图类簇中的所有语料。

本申请实施例中对n的大小不作进一步的限定，本领域的技术人员可以根据分词的实际情况进行调整，但n为大于1的整数，例如n为3，则取起始要素后出现的出现次数位于前3的第一分词，第一分词后出现的出现次数位于前3的第二分词，第二分词后出现的出现次数位于前3的第三分词，……，第N-1后出现的出现次数位于前3的第N分词，依次进行遍历，直至遍历完意图类簇中的所有语料。若备选要素字典中某个要素后出现的紧邻分词的数量低于n，则只对该紧邻分词的实际数量进行后续遍历，例如：n为3，若备选要素字典中某个要素后出现的紧邻分词仅有两个，则只以这两个紧邻分词进行后续遍历。

例如：起始要素为“听不懂”，在备选要素字典中“听不懂”后出现的紧邻分词按照出现次数排序依次为“啊”、“我”、“什么”、“不”、“说”，n为3，则以“啊”、“我”、“什么”为第一分词，取备选要素字典中“啊”后出现的紧邻分词出现次数前3的紧邻分词、备选要素字典中“我”后出现的紧邻分词出现次数前3的紧邻分词、以及备选要素字典中“什么”后出现的紧邻分词出现次数前3的紧邻分词为第二分词，依次对意图类簇中的每个语料进行遍历，直至遍历完意图类簇中的所有语料。

在遍历的过程中，可能会出现某个语料在遍历中遇到之前出现过的紧邻分词，则对该语料停止遍历，例如：“我听不懂，听不懂，听不懂……”,则在第一次遍历时搜索到“听不懂”时就终止遍历。

经过上述遍历后，获得多个候选要素序列，每个候选要素序列中均包括多个要素，各个要素均按照一定的顺序组合成每个候选要素序列，也即，要素序列是指多个要素按照特定的顺序组合得到的序列。但候选要素序列数量可能比较多，且某些语料可能会由于偶然性导致要素序列缺乏泛化能力，为了避免上述现象，通过候选要素序列在意图类簇的语料中的出现次数确定生成正则表达式的要素序列。具体地，可以在遍历的过程中统计每个要素序列在意图类簇的语料中的出现次数，将候选要素序列按照出现次数从大至小依次排序，取排序前y的要素序列作为生成正则表达式的要素序列。本申请的实施例中对y的具体值不做进一步地限定，本领域的技术人员可以根据实际情况确定，但一般而言，y为3。

获得生成正则表达式的要素序列后，将每个生成正则表达式的要素序列中的各个要素通过正则符号链接，生成意图类簇的多个正则表达式，其中，链接各个要素的正则符号根据要素序列的长度确定，本领域的技术人员可以根据实际情况进行选择，本申请的实施例中对此不做进一步限定，例如：可以通过.*、[^，]、{0,n}等正则符号对各个要素进行链接。

本申请实施例提供的正则表达式的生成方法，通过对样本语料库进行分词和提取之后，自动生成正则表达式，不需要依赖人工总结而获得所需要的正则表达式，减少了正则表达式的获取难度，也大大提高了获取正则表达式的效率，通过本申请实施例提供的正则表达式的生成方法，不仅能提高生成正则表达式的效率，最大程度上节省人工，还能提高正则表达式的准确率，避免了人工总结的误判或漏判现象。

图3为本申请实施例中提供的意图识别方法的流程示意图。如图3所示，本申请实施例的第二方面提供了一种意图识别方法，包括以下步骤：

步骤S100、获得待识别的句子；

具体地，可通过智能在线客服***中实时采集到的问答句子作为待识别的句子，但一般而言，直接从智能在线客服***中实时采集到的问答句子不规范，包含了特殊符号或其它与问答无关的信息，因此，待识别的句子还需要进行去噪处理，将待识别的句子中的特殊符号和与问答无关的信息去除掉，使待识别的句子的有效信息更加稠密，降低无关信息对待识别的句子的影响，提高意图识别的准确性。

步骤S200、根据预先确定的正则表达式，对句子进行意图识别，获得意图识别结果；

其中，正则表达式是根据本申请实施例第一方面的正则表达式的生成方法确定的。

本申请实施例第一方面的正则表达式中包括多条正则表达式：正则表达式1、正则表达式2、正则表达式3、……、正则表达式N，每条正则表达式对应一个或多个意图相同的样本语料中分词的顺序和出现的次数的组合。

通过将待识别的句子与预先确定的正则表达式进行匹配，并根据匹配结果，对待识别的句子进行意图识别，获得意图识别结果。

本申请实施例提供的意图识别方法，通过将待识别的句子与预先确定的正则表达式进行匹配，并根据匹配结果，获得意图识别结果，本申请实施例通过将待识别的句子与预先确定的正则表达式进行匹配获得意图识别结果，对意图相同表述不同的句子可准确地识别出意图，不仅能够最大程度的节省人工，简化处理过程，提高意图识别的效率，还能够提高意图识别的准确率。

图4为本申请实施例中提供的正则表达式生成装置的结构示意图。结合图4所示，本申请第三方面提供了一种正则表达式生成装置，包括：语料库获取模块101、意图类簇获取模块102、召回语料获取模块103、词类簇获取模块104、备选要素字典获取模块105和正则表达式获取模块106，其中：

语料库获取模块101，用于获取样本语料库；

意图类簇获取模块102，用于确定样本语料库中的至少一个意图类簇，各意图类簇中包括与同一个意图对应的语料；

召回语料获取模块103，用于从意图类簇中确定种子句式，确定种子句式和对应意图类簇中每个语料的第一相似度，将第一相似度高于预设阈值的语料作为召回语料；

词类簇获取模块104，用于对召回语料中的语料进行分词处理，获得分词结果，对分词结果中的分词进行聚类，获得至少一个词类簇；

备选要素字典获取模块105，用于根据至少一个词类簇中的分词构建备选要素字典，备选要素字典中包括以至少一个词类簇中的分词作为的备选要素，以及备选要素的至少一个紧邻分词以及出现次数，紧邻分词为语料中位于所述备选要素之后的第一个分词；

正则表达式获取模块106，用于根据备选要素字典，确定正则表达式。

本申请实施例提供的正则表达式生成装置，具体执行上述方法实施例流程，具体请详见上述正则表达式的生成方法实施例的内容，在此不再赘述，本申请实施例的正则表达式生成装置，通过对样本语料库进行分词和提取之后，自动生成正则表达式，不需要依赖人工总结而获得所需要的正则表达式，减少了正则表达式的获取难度，也大大提高了获取正则表达式的效率，通过本申请实施例提供的正则表达式的生成方法，不仅能提高生成正则表达式的效率，最大程度上节省人工，还能提高正则表达式的准确率，避免了人工总结的误判或漏判现象。

图5为本申请实施例中提供的意图识别装置的结构示意图。结合图5所示，本申请第四方面提供了一种意图识别装置，包括：句子获取模块201和意图识别模块202，其中：

句子获取模块201，用于获得待识别的句子；

意图识别模块202，用于根据预先确定的正则表达式，对句子进行意图识别，获得意图识别结果；

其中，正则表达式是根据第三方面所述的正则表达式生成装置确定的。

本申请实施例提供的意图识别装置，具体执行上述方法实施例流程，具体请详见上述意图识别方法实施例的内容，在此不再赘述，本申请实施例的意图识别装置，通过将待识别的句子与预先确定的正则表达式进行匹配，并根据匹配结果，获得意图识别结果，本申请实施例通过将待识别的句子与预先确定的正则表达式进行匹配获得意图识别结果，对意图相同表述不同的句子可准确地识别出意图，不仅能够最大程度的节省人工，简化处理过程，提高意图识别的效率，还能够提高意图识别的准确率。

本申请的第五方面提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，使得处理器可以执行前述第一方面正则表达式的生成方法或第二方面意图识别方法实施例中相应内容。由于该电子设备执行上述方法中的至少一种，因此该电子设备至少包括上述至少一种方法的全部有益效果，此处不再赘述。

在一个可选实施例中提供了一种电子设备，如图6所示，图6所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

本申请实施例的第六方面提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述第一方面正则表达式的生成方法或第二方面意图识别方法实施例中相应内容。由于该计算机可读存储介质执行上述方法中的至少一种，因此该计算机可读存储介质至少包括上述至少一种方法的全部有益效果，此处不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

虽然本公开披露如上，但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本申请实施例的保护范围。

Claims

1.一种正则表达式的生成方法，其特征在于，包括：

获取样本语料库；

根据所述备选要素字典，确定所述正则表达式。

2.根据权利要求1所述的正则表达式的生成方法，其特征在于，所述确定所述种子句式和对应意图类簇中每个语料的第一相似度，将所述第一相似度高于预设阈值的语料作为召回语料，包括：

3.根据权利要求1所述的正则表达式的生成方法，其特征在于，所述对所述分词结果中的分词进行聚类，获得至少一个词类簇，包括：

4.根据权利要求1所述的正则表达式的生成方法，其特征在于，所述根据所述备选要素字典，确定所述正则表达式，包括：

5.根据权利要求4所述的正则表达式的生成方法，其特征在于，所述根据所述起始要素、所述终止要素和所述备选要素的至少一个紧邻分词以及出现的次数，对所述意图类簇中的语料进行组合，生成所述意图类簇的正则表达式，包括：

从所述起始要素开始遍历，确定当前遍历的要素序列；

6.根据权利要求1所述的正则表达式的生成方法，其特征在于，所述确定所述样本语料库中的至少一个意图类簇，包括：

7.一种意图识别方法，其特征在于，包括：

获得待识别的句子；

其中，所述正则表达式是根据权利要求1至6任一项所述的正则表达式的生成方法确定的。

8.一种正则表达式生成装置，其特征在于，包括：

语料库获取模块，用于获取样本语料库；

9.一种意图识别装置，其特征在于，包括：

句子获取模块，用于获得待识别的句子；

其中，所述正则表达式是根据权利要求8所述的正则表达式生成装置确定的。

10.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。