CN116991969B

CN116991969B - 可配置语法关系的检索方法、***、电子设备及存储介质

Info

Publication number: CN116991969B
Application number: CN202310590928.9A
Authority: CN
Inventors: 刘冠; 雷力; 赖凯声; 支庭荣
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2024-03-19
Anticipated expiration: 2043-05-23
Also published as: CN116991969A

Abstract

本发明公开了一种可配置语法关系的检索方法，包括获取待检索目标，待检索目标包括检索文本，将所述检索文本以句子为单位分割；基于检索词条列表与数据库进行正则匹配，输出符合正则匹配规则的全量词条；识别待检索目标中是否存在语法关系配置表，若有则提取所述语法关系配置表，若无则构建语法关系配置表；基于语法关系配置表与全量词条列表进行语法关系匹配，输出符合语法关系匹配规则的词条，获得最终匹配列表。本发明实施例的可配置语法关系的检索方法通过配置检索词本身的语法关系进行检索，并使用图算法进行实施，减少计算复杂度；具有更高的简便性和灵活性，不需要枚举模糊匹配部分的语法关系，适合语法关系更为复杂的句子。

Description

可配置语法关系的检索方法、***、电子设备及存储介质

技术领域

本发明涉及自然语言处理领域，具体涉及一种可配置语法关系的检索方法、***、电子设备及存储介质。

背景技术

语法关系如词性、句法结构能够描述句子内部单个词、词与词之间的复杂关系。随着大规模句子语法关系标注数据集的出现，语法关系分析(如词性标注，句法分析)的性能得到了大幅提升，目前已经广泛应用在许多不同领域中，例如信息检索领域。一方面是因为语法关系分析作为自然语言处理技术的基础组件之一，发展已经相对成熟，有许多开箱即用的开源软件。另一方面，语法关系分析和模型训练相比，在时间和经济成本上的成本都相对小得多。在检索***中，传统字符串匹配的方法存在无法匹配语义的缺陷。而语法关系分析刚好可以借助对句子内部关系的描述，来理解同一个语义的多种表达。

目前已经有许多研究试图利用语法关系解决这些问题。如申请公布号为CN106716408A的中国发明专利公开了一种语义文本搜索方法，对待检索文本的进行句法分析和词性标注，根据不同的句法结构，构建不同的语义类别的检索树。这样一来，检索词只会匹配中相关的语义类别，从而排除噪声；申请公布号为CN113407739A的中国发明专利公开了一种信息标题中概念的确定方法、装置和存储介质，其中对待检索文本的进行依存句法分析，抽取出标题的概念主干(例如名词性短语：“起泡胶做法”)，从而简化和聚焦语义，去除无关的信息，优化检索效果；申请公布号为CN105786963A的中国发明专利公开了一种语料库的检索方法及***，提供了一种新型的检索表达式，可以完成正则和句法结构的混合检索。特别地，检索表达式可以灵活描述模糊检索：只指定语法关系，不需要给出具体词语。通过对待检索文本的进行句法分析和词性标注，最终可以匹配符合检索表达式的结果。

以上方案都通过嵌入语法关系，进行轻量级的改动，就达到了提升检索效果的目的。但语法关系的处理都是针对待检索文本进行的，对于检索词本身而言，也只支持模糊检索部分，不支持配置检索词本身的语法关系。这样的问题是无法完成更为灵活的检索需求，另外一方面是无法应对复杂句子的检索。

发明内容

针对所述缺陷，本发明实施例公开了一种可配置语法关系的检索方法、***、电子设备及存储介质，其通过配置检索词本身的语法关系进行检索，并使用图算法进行实施，减少计算复杂度；具有更高的简便性和灵活性，不需要枚举模糊匹配部分的语法关系，适合语法关系更为复杂的句子。

本发明实施例第一方面公开了一种可配置语法关系的检索方法，包括：

获取待检索目标，所述待检索目标包括检索文本，将所述检索文本以句子为单位分割；分割而成的单个句子形成检索词条，分割而成的所有句子形成检索词条列表；

基于所述检索词条列表与数据库进行正则匹配，输出符合正则匹配规则的全量词条，形成全量词条列表；

识别所述待检索目标中是否存在语法关系配置表，若有则提取所述语法关系配置表，若无则构建语法关系配置表；

基于所述语法关系配置表与所述全量词条列表进行语法关系匹配，输出符合语法关系匹配规则的词条，获得最终匹配列表。

作为一种可选的实施方式，在本发明实施例第一方面中，所述检索词条包括若干分词；所述语法关系配置表包括各分词之间的语法关系，所述语法关系包括所述分词之间的依存关系，与所述分词本身的词性。

作为一种可选的实施方式，在本发明实施例第一方面中，所述语法关系储存格式为：termSRC|posSRC，termDST|posDST，dep；

其中，termSRC为支配词，posSRC为所述支配词的词性，termDST为从属词，posDST为所述从属词的词性，dep为支配词与从属词之间的依存关系；

所述支配词为具体词汇、模糊词汇或未知词；当所述支配词为模糊词汇时，termSRC＝*；当所述支配词为未知词时，termSRC＝[n]，(n＝0、1、2、……、n)；

所述从属词为具体词汇、模糊词汇或未知词；当所述从属词为模糊词汇时，termDST＝*；当所述支配词为未知词时，termDST＝[n]，(n＝0、1、2、……、n)；

所述词性为具体词性或模糊词性；当所述词性为模糊词性时，posSRC＝*；

所述依存关系为具体依存关系或模糊依存关系，当所述依存关系为模糊依存关系时，dep＝*。

作为一种可选的实施方式，在本发明实施例第一方面中，所述识别所述待检索目标中是否存在语法关系配置表，若有则提取所述语法关系配置表，若无则构建语法关系配置表步骤中，构建语法关系配置表的方法包括，

对所述全量词条列表进行随机取样得到样本词条列表；

基于所述样本词条列表与语法关系分析方法，获得样本语法关系列表；

基于所述样本语法关系列表构建语法关系选项，统计形成语法关系选项列表；

读取语法关系需求选项信息，基于所述语法关系需求选项信息与语法关系选项列表生成语法关系配置表。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于所述语法关系配置表与所述全量词条列表进行语法关系匹配，输出符合语法关系匹配规则的词条，获得最终匹配列表步骤包括，

基于所述全量词条列表与语法关系分析方法，获得全量语法关系列表；

提取所述全量语法关系列表中与所述语法关系配置表中依存关系信息一致的词条，得到匹配词条列表；

提取所述匹配词条列表中与所述语法关系配置表中词性信息一致的词条，得到最终匹配列表。

作为一种可选的实施方式，在本发明实施例第一方面中，所述语法关系分析方法包括，

对所述样本词条列表或所述全量词条列表中的各词条进行分词得到各词条的分词信息，形成第一嵌套列表；

基于第一嵌套列表与依存句法训练模型对各词条进行依存句法分析，得到各词条的各分词之间的依存关系信息，形成第二嵌套列表；

对所述第一嵌套列表的各词条的分词进行词性标注，得到各词条的各分词的词性信息，形成第三嵌套列表；

基于所述第一嵌套列表、第二嵌套列表与第三嵌套列表构建样本语法关系列表或全量语法关系列表。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于所述第一嵌套列表、第二嵌套列表与第三嵌套列表构建样本语法关系列表或全量语法关系列表步骤包括，

基于所述第一嵌套列表、第二嵌套列表与第三嵌套列表创建双向加权图，

所述双向加权图的起点为termSRC|posSRC，其中termSRC为所述依存关系信息中的支配词，posSRC为支配词的词性；

所述双向加权图的终点为termDST|posDST，其中termDST为所述依存关系信息中的从属词，posDST为从属词的词性；

所述双向加权图的边为dep，其中为所述依存关系信息中的支配词与从属词之间的依存关系；

将所述双向加权图各节点信息转换为图数据结构，基于所述图数据结构构建样本语法关系列表或全量语法关系列表。

本发明实施例第二方面公开一种可配置语法关系的检索***，包括：

输入模块，所述输入模块用于输入或读取待检索目标；

文本分割模块，所述文本分割模块用于识别所述待检索目标中的检索文本，并对所述检索文本进行分割，形成检索词条列表；

第一匹配模块，所述第一匹配模块用于将所述检索词列表与数据库进行正则匹配，形成全量词条列表；

语法配置识别模块，所述语法配置识别模块用于识别所述待检索目标中是否存在语法关系配置表；

语法配置构建模块，所述语法配置模块用于构建语法配置表；

第二匹配模块，所述第二匹配模块用于根据所述语法关系配置表与所述全量词条列表进行语法关系匹配，形成最终匹配列表；

展示模块，用于输出最终匹配列表并进行排序展示。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的可配置语法关系的检索方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的可配置语法关系的检索方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例的可配置语法关系的检索方法通过配置检索词本身的语法关系进行匹配查找，具有更高的简便性和灵活性，不需要枚举模糊匹配部分的语法关系，并且适合语法关系更为复杂的句子，通过引入了图算法的处理方式，使整个检索匹配的计算效率大大提升。这种检索方法在许多应用上都非常实用，其中的数据库可根据实际应用场景作为大数据库、语料库、目标文件库等进行实施。比如在舆情信息关键词统计上，利用本实施例的检索方法，可以通过一个更易维护的配置模板检索关键词，提高舆情监控效果。又比如在语言学、文学研究中，使用已有语料库或者文献中的例句支持自己的观点是非常重要的。通过本实施例的检索方法，可以更容易且精准地检索到语料库中特定语法关系的例句，加快科研进度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的可配置语法关系的检索方法的流程示意图；

图2是本发明实施例中句子“这个是我的”的依存句法树；

图3是本发明实施例中句子1)的依存句法树；

图4是本发明实施例中句子2)的依存句法树；

图5是本发明实施例中句子3)的依存句法树；

图6是本发明实施例中句子4)的依存句法树；

图7是本发明实施例步骤S3的具体流程示意图；

图8是本发明实施例步骤S32的具体流程示意图；

图9是本发明实施例步骤S324的具体流程示意图；

图10是本发明实施例步骤S4的具体流程示意图；

图11是本发明实施例提供的一种可配置语法关系的检索***的结构示意图；

图12是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前的检索方法中对于语法关系的处理都是针对待检索文本进行的，对于检索词本身而言，也只支持模糊检索部分，无法配置检索词本身的语法关系进行检索。从而无法满足对于更为灵活或复杂句子的检索需求。基于此，本发明实施例公开了一种可配置语法关系的检索方法、***、电子设备及存储介质，其通过配置检索词本身的语法关系进行检索，并使用图算法进行实施，减少计算复杂度；具有更高的简便性和灵活性，不需要枚举模糊匹配部分的语法关系，适合语法关系更为复杂的句子。

实施例一

请参阅图1-10，图1是本发明实施例公开的可配置语法关系的检索方法的流程示意图。该方法适用于具有处理功能的手机、平板电脑等智能设备以及计算机、服务器等计算设备。如图1所示，该可配置语法关系的检索方法包括以下步骤：

步骤S1：获取待检索目标，所述待检索目标包括检索文本，将所述检索文本以句子为单位分割；分割而成的单个句子形成检索词条，分割而成的所有句子形成检索词条列表。

步骤S2：基于所述检索词列表与数据库进行正则匹配，输出符合正则匹配规则的全量词条，形成全量词条列表R。

步骤S3：识别所述待检索目标中是否存在语法关系配置表，若有则提取所述语法关系配置表，若无则构建语法关系配置表。

步骤S4：基于所述语法关系配置表与所述全量词条列表R进行语法关系匹配，输出符合语法关系匹配规则的词条，获得最终匹配列表。

本实施例以检索词条为“打击*黑恶势力”(“*”代表任意项)进行说明，假设此次检索目的是为了得到以下匹配结果：

1)打击S市涉网络黑恶势力。(此处“S市涉网络”为任意项部分内容)

2)加大打击黑恶势力的力度。(此处“加大”“的力度”为原句检索词外的句子成分)

3)依法严厉打击任何形式的黑恶势力。(此处“任何形式的”为任意项部分内容，“依法严厉”为原句检索词外的句子成分)

先将该检索词条转化为正则表达式“打击.*？黑恶势力”。通过与数据库中的词条进行正则匹配得到全量词条列表R。

在现有技术中，若需要精准匹配到以上1)2)3)个句子，则需要另外一一对应的三个不同的检索表达式描绘语法关系才可得到；而在本实施例中，通过引入语法关系配置表的检索条件，将以上三个句子归为一类，即可得到匹配结果。

依存句法理论认为词与词之间存在“支配词”(head)和“从属词”(dependent)的主从关系，二者之间的可以被称为“依存关系”(dependency relation)。请参考图2所示，以句子“这个是我的”为例，其依存句法关系树为支配词“我”指向从属词“这个”，两者依存关系为“nsubj(名词主语)”，“我”和“这个”的词性均为“PN(代词)”。具体标签及其释义参见表2-表3。

通过对1)2)3)个句子分别进行句法分析，其相应的依存句法树如图3-5所示，从上述依存句法树可知，通过本实施例的方案，只需要给检索词“打击*黑恶势力”一个依存句法关系条件，即，要求正则匹配后的句子，支配词“打击”和从属词“势力”的依存关系为“dobj(直接宾语)”。这样就能够将整体上语法关系不相同的三个句子归为一类，而不需要设计三个单独的检索条件，节约时间成本也增加了检索的鲁棒性。

通过本实施例的方法，当出现以下的句子：4)打击贪腐问题和惩治黑恶势力。(此处“击贪腐问题和惩治”为任意项部分内容)时，句子4)的依存句法树如图6所示，其可以被正则匹配成功，但因为语法关系不符合预设的语法关系配置表，将不会被最终匹配。

本实施例提出一个全新的检索方法：通过配置检索词本身的语法关系进行匹配查找，具有更高的简便性和灵活性，不需要枚举模糊匹配部分的语法关系，并且适合语法关系更为复杂的句子。这种匹配方法在许多应用上都非常实用，其中的数据库可根据实际应用场景作为大数据库、语料库、目标文件库等进行实施。比如在舆情信息关键词统计上，利用本实施例的检索方法，可以通过一个更易维护的配置模板检索关键词，提高舆情监控效果。又比如在语言学、文学研究中，使用已有语料库或者文献中的例句支持自己的观点是非常重要的。通过本实施例的检索方法，可以更容易且精准地检索到语料库中特定语法关系的例句，加快科研进度。

具体地，在步骤S1中，为了保证构建的依存句法树更加合理化，避免影响依存关系的复杂性和合理性。因此本实施例在步骤S1中对检索文本进行句子分割。分割的规则是将标点符号“。”、“？”、“！”作为分割符。例如：“李白(701年-762年)，字太白，号青莲居士，又号‘谪仙人’。是唐代伟大的浪漫主义诗人。被后人誉为‘诗仙’，与杜甫并称为‘李杜’”，将会被分割为三个句子，形成三个检索词条，分别为“李白(701年-762年)，字太白，号青莲居士，又号‘谪仙人’”，“是唐代伟大的浪漫主义诗人”和“被后人誉为‘诗仙’，与杜甫并称为‘李杜’”，这三个检索词条之集形成检索词条列表。

在步骤S2中，先通过将检索词列表中的检索词条与数据库中的词条进行正则匹配。如果匹配结果为空，说明数据库中没有预期结果，则不需要再进入到下一步骤即可直接输出无匹配结果。如果此步骤有匹配结果输出，则将符合正则匹配规则的词条输出，命名为全量词条，将所有匹配得到的全量词条集合形成全量词条列表R。

在步骤S3中，需要识别待检索目标中是否存在语法关系配置表，本实施例针对不同用户提供多种语法关系配置表的获得方法，如针对于有明确的匹配需求且清楚知道检索词依存关系，可以直接给出配置表的用户，则直接提取语法关系配置表进入下一步骤。针对于未能明确将自己的检索需求翻译成依存句法检索的用户，则需要为其构建语法配置表。

在本实施例中，检索词条包括若干分词；语法关系配置表包括各检索词条中的各分词之间的语法关系，语法关系包括分词之间的依存关系信息与分词本身的词性信息。在一些实施方式中，语法关系配置表直接存在“txt”文本格式中，每一行表示两个分词之间的依存关系与分词本身的词性，以回车作为每行之间的间隔。每行的格式为：termSRC|posSRC，termDST|posDST，dep。

其中，“termSRC”代表支配词，“posSRC”代表支配词的词性，二者用“|”隔开；而“termDST”代表从属词，“posDST”代表从属词的词性，二者用“|”隔开；最终一项为支配词和从属词的依存关系“dep”。同前，词性和依存关系见表2-表3。另外支配词描述，从属词描述和依存关系三类都用“，”隔开。

因此，检索词条“打击*黑恶势力”的实施例中，如果想匹配得到句子1)、2)、3)，根据依存关系信息与词性信息，可以将支配词“打击”(词性为“VV”)和从属词“势力”(词性为“NN”)的依存关系设为“dobj(直接宾语)”。在配置表中格式为：打击|VV，势力|NN，dobj。

进一步地，如果不想指定具体的词性和依存关系，可以使用“*”表示任意词性。在配置表中格式为：打击|*，势力|NN，dobj。

上面这个配置表示支配词“打击”(任意词性)和从属词“势力”(词性为“NN”)的依存关系设为“dobj(直接宾语)”。同理，“势力”的词性也可以设为“*”。支配词和从属词词性可以同时为“*”。说明不考虑词性，只要依存关系、支配词和从属词匹配即可。

依存关系也可以为任意关系。从图(graph)的角度看，相当于由双向加权图变成了双向无权图，即保留支配词对从属词的指向关系，但忽略依存关系。只要“打击”和“势力”存在关系，且“打击”为支配词即可。在配置表中格式为：打击|*，势力|*，*。

进一步，如果需要匹配更复杂的关系，例如需要匹配句子4)这类的句子，可以指定“打击”和模糊匹配部分的未知动词(VV，例句(4)这里是“惩治”)的依存关系为“conj(连接)”。注意，这里未知动词的词性也可以为“*”，说明只要存在“conj”关系即可。在配置表中格式为：打击|*，[0]|VV，conj。

这里引入了新的表达，“[0]”表达存在于模糊检索中，而不存在检索词中的未知词，如果要继续描述第二个未知词，则使用“[1]”。即中括号中包含一个自然数。注意，需要按顺序连续递增，不能跳号。通常，这样的配置会使用多个表达结合，描述未知词和句子中多个词的依存关系。例如可以增加更多的条件来确保匹配中4)这类的句子。在配置表中表达如下：

打击|*，[0]|VV，conj

[0]|VV，势力|NN，dobj

打击|*，[1]|*，cc

第二行表示未知动词和“势力”的依存关系为“dobj”。第三行表示第二个未知词和“打击”的关系为“cc”。这里要注意，在配置表中存在多个表达的时候，需要统一词性，否则会报错。例如：不能第一行“[0]|VV”，而第二行“[0]|NN”或者“[0]|*”。配置表中多条表达式的关系为“AND”(无需显式添加)，如果要执行“OR”操作，配置多个文件即可，支持一个检索词加多个配置表的检索功能。

步骤S3中构建语法关系配置表的方法包括：

步骤S31：对所述全量词条列表R进行随机取样得到样本词条列表Ra。

本实施例按照1％的比例对全量词条列表R进行随机采样，得到样本词条列表Ra。这里的比例可以根据数据库规模调节的，原则是对采样的结果数据量进行合理化控制，避免对下一步筛选模式造成压力。

步骤S32：基于所述样本词条列表Ra与语法关系分析方法，获得样本语法关系列表Ga。具体步骤包括：

步骤S321：对所述样本词条列表Ra中的各词条进行分词得到各词条的分词信息，形成第一嵌套列表Ta。

在依存句法分析前，需要先对每个检索词条进行分词，本实施例使用python的第三方分词库“jieba”。这是一个专门用于中文分词的库。如果检索词中有术语或者组合词如“技术创新中心”需要被看作是一个词的，可以使用“jieba.add_word”方法将该词添加进默认词典，在分词时会被视为一个词。添加完成后，使用“jieba.lcut”方法，每个检索词条都会得到一个分词列表，样本词条列表Ra中每个检索词条分词后列表的集合是一个嵌套列表，命名为第一嵌套列表Ta。例如在python中，检索词条“这个是我的”表示为字符串(string)，jieba.lcut("这个是我的")会输出分词后的列表(list)：["这个","是","我","的"]。

步骤S322：基于第一嵌套列表Ta与依存句法训练模型对各词条进行依存句法分析，得到各词条的各分词之间的依存关系信息，形成第二嵌套列表Da。

本步骤使用python的第三方库“hanlp”对每个句子进行依存句法分析。为了方便展示，以下使用句子“这个是我的”示例。hanlp是一个支持许多中文自然语言处理任务的库。

使用hanlp加载依存句法分析的预训练模型：dep＝hanlp.load(hanlp.pretrained.dep.CTB9_UDC_ELECTR A_SMALL)。这里使用的“CTB9_UDC_ELECTRA_SMALL”是一个基于中文的依存句法分析开源预训练模型。hanlp支持导入其它各种语言的预训练模型，本实施例中文检索仅为便于说明，其他语言的实施均属于本专利保护范围。加载完毕后，输入分词后的列表：dep(["这个","是","我","的"])，即可得到这个检索词条的依存句法关系：[(3,"nsubj"),(3,"cop"),(0,"root"),(3,"case")]。结果是一个列表，列表里有若干个元组(tuple)组成，每个元组由分词在词条中的位置序号和依存句法关系组成。需要结合第一嵌套列表Ta解读。参考表1，列表第一个元组(3,"nsubj")指的是，第一个分词“这个”作为从属词，而第三个分词(“我”)作为支配词与其存在依存句法关系，为“nsubj”。后续的以此类推。特别地，第三个元组(0,"root")表示的是第三个分词作为从属词和其它词没有依存句法关系。对第一嵌套列表Ta中每一个元素进行依存句法分析以后，得到第二嵌套列表Da。

步骤S323：对所述第一嵌套列表Ta的各词条的分词进行词性标注，得到各词条的各分词的词性信息，形成第三嵌套列表Pa。

本步骤对第一嵌套列表Ta进行词性标注，得到各词条的各分词的词性信息。使用hanlp的词性标注接口：pos＝hanlp.load(hanlp.pretrained.pos.CTB9_POS_ELECTRA_SMALL)。例如：pos(["这个","是","我","的"])，得到词性列表：["PN","VC","PN","DEG"]。因此，第一嵌套列表Ta经过词性标注处理后得到嵌套的第三嵌套列表Pa。

步骤S324：基于所述第一嵌套列表Ta、第二嵌套列表Da与第三嵌套列表Pa构建样本语法关系列表Ga。具体步骤包括：

步骤S3241：基于所述第一嵌套列表Ta、第二嵌套列表Da与第三嵌套列表Pa创建双向加权图。

步骤S3242：将所述双向加权图各节点信息转换为图数据结构，基于所述图数据结构构建样本语法关系列表Ga。

从实施上讲，依存句法树可以看作是一个双向加权图(bidirectional weightedgraph)的问题。一个图(或网络)中，通常是由节点(node)和边(edge)组成的。而双向加权图中，每条边是有方向的，而且每条边存在权重(属性)。因此可以用一个三元组来表示一个点指向另一个点的关系——(src，dst，dep)。“src”代表起点，对应依存句法理论中的支配词，“dst”代表终点，对应从属词。“dep”边的属性，对应依存关系。因此，句子“这个是我的”的图表示方法见表1。使用图表征依存句法树以后，通过图算法或者简单的节点属性就可以得到需要的信息。例如可以针对给定节点，可以得到其所有有连接的节点，这大大减少计算复杂度，具有更高的简便性和灵活性。

使用python的第三方库“networkx”构造图。这是在python中常用来构造图(网络)的库，内置了大量图算法，可以直接调用。以“这个是我的”为例，首先创建一个双向图：g＝networkx.DiGraph()。接着，可以用写好的脚本将句法树的关系转写为表1描述的关系，作为一个嵌套列表在python中表示，各分词用分词后的列表的序号表示：dep＝[["3","1","nsubj"],["3","2","cop"],["3","4","case"]]。将这个嵌套列表dep的关系添加到刚创建好的双向图中，得到完整的双向加权图：g.add_weighted_edges_from(dep,weight＝"dep")。再利用词性列表进一步将词性信息补充进去：networkx.set_node_attributes(g,{"1":"PN","2":"VC","3":"PN","4":"DEG"},name＝'pos')。这里g代表创建的双向图，从空图不断更新信息。第二嵌套列表Da中，通过构建图的操作后，会得到一个样本语法关系列表Ga，列表中元素由图构成。

表1

src	dst	dep
			我	这个	nsubj
我	是	cop
			我	的	case

步骤S33；基于所述样本语法关系列表Ga构建语法关系选项，统计形成语法关系选项列表。

步骤S34；读取语法关系需求选项信息，基于所述语法关系需求选项信息与语法关系选项列表生成语法关系配置表。

样本语法关系列表Ga构建完毕后，用户可以通过python脚本对语法关系项进行统计，列出数量最高的十项，也可以直接对依存句法关系可视化，确认自己的检索需求，配置检索词语法关系表。至此，检索词语法关系表构建完毕。这一步的操作主要是针对没有构建好检索词配置表的用户。通过小规模采样来了解依存句法关系的分布，进一步确认自身的检索条件，完成配置语法表，在下一步中进行检索。大大降低了本专利的学习曲线。

在步骤S4中，基于所述语法关系配置表与所述全量词条列表R进行语法关系匹配，输出符合语法关系匹配规则的词条，获得最终匹配列表具体步骤包括：

步骤S41；基于所述全量词条列表R与语法关系分析方法，获得全量语法关系列表G。

此步骤与步骤S32方法一致，执行对象由样本词条列表Ra变为全量词条列表R。执行这些操作以后，得到全量语法关系列表G，里面的元素是单个图，每个图包含一个句子的依存句法关系和词性，此处不再赘述。

步骤S42；提取所述全量语法关系列表G中与所述语法关系配置表中依存关系信息一致的词条，得到匹配词条列表。

根据语法配置表中的依存关系信息的要求，对全量语法关系列表G中的每个图进行检索。例如，检索词为“打击.*？黑恶势力”，配置表为“打击|VV,势力|NN,dobj”。假定检索词正则匹配中的全量词条已经全部构建为图。那么在句子1)、2)、3)转化的图中，都可以使用networkx自带方法查询是否“打击”和“势力”存在依存关系“dobj”：gi.get_edge_data(ni,mi)。其中gi表示三个句子各自的图，ni和mi代表的是支配词和从属词的序号，即“打击”和“势力”在三个检索词条中分词列表中的序号。如果结果为空，该方法返回为空，输出无匹配结果信息。否则返回词典(dictionary)：{"dep":depi}。depi代表的是三个句子中“打击”和“势力”的依存关系。实际中，我们可以知道三个句子的depi是“dobj”。这说明三个句子中依存关系匹配成功。

步骤S43；提取所述匹配词条列表中与所述语法关系配置表中词性信息一致的词条，得到最终匹配列表F。

进一步，检查词性。执行networkx方法访问节点属性，即词性：gi.nodes[ni]和gi.nodes[mi]，如果结果输出对应为{"pos":"VV"}{"pos":"NN"}说明词性也符合配置表要求。依存关系和词性符合语法关系配置表描述，这三个句子都会输出，并作为最终匹配列表F进行展示。

对于语法关系配置表中出现未知词的情况，脚本会先确认实际语法关系中是否存在未知词。这种情况下，不能直接获取两个节点的边属性，而需要遍历已知词的边。例如：语法关系配置表为“打击|*,[0]|VV,conj”，以已知词作为支配词，遍历支配词节点的“out_edges”：for src,dst,dep in g.out_edges(xi,data＝True)。其中g是“打击”所在句子建构的图实例，xi代表“打击”在该句中分词列表的序号。如果有结果输出，说明“打击”存在“out_edges”。src输出为xi，dst输出为未知词在该句中分词列表的序号。dep为二者的依存句法关系。所以，当存在一个输出的dst词性满足“VV”的要求，且dep又是“conj”，说明匹配成功。否则失败。而dst则是未知词[0]。如果语法关系配置表是“[0]|VV,势力|NN,dobj”，操作和前面一致，但已知词作为从属词，遍历该词的“in_edges”：for src,dst,dep in g.in_edges(xi,data＝True)。

在一些优选的实施方式中，还将进一步使用gpu对检索流程进行加速，基于python的gpu数据分析框架“RAPIDS”，提供了networkx在gpu平台上的替换产品“cuGraph”。不需要修改太多代码就可以加速运算。除此之外，在进行检索时也可以使用并行运算技术。这些优化都能有效保证检索速度。

总的来说，本实施例提出了一个可配置语法关系的检索方法，利用这个方法，比传统方法更为便捷和容错地完成匹配。从实施上，本实施例引入了图表示的概念，使整个匹配的计算效率大大提升。本方法可以广泛运用在舆情监控，语言学语料库研究方面，和此前的检索工具相比，也将大大提升准确率。

实施例二

请参阅图11，图11是本发明实施例公开的可配置语法关系的检索***的结构示意图。如图11所示，该可配置语法关系的检索***可以包括：

输入模块，所述输入模块用于输入或读取待检索目标；

展示模块，用于输出最终匹配列表并进行排序展示。

本发明实施例的可配置语法关系的检索***，比传统方法更为便捷和容错地完成匹配。引入了图表示的概念，使整个匹配的计算效率大大提升。本方法可以广泛运用在舆情监控，语言学语料库研究方面，和此前的检索工具相比，也将大大提升准确率。

实施例三

请参阅图12，图12是本发明实施例公开的一种电子设备的结构示意图。电子设备可以是计算机以及服务器等，当然，在一定情况下，还可以是手机、平板电脑以及监控终端等智能设备，以及具有处理功能的图像采集装置。如图12所示，该电子设备可以包括：

存储有可执行程序代码的存储器510；

与存储器510耦合的处理器520；

其中，处理器520调用存储器510中存储的可执行程序代码，执行实施例一中的可配置语法关系的检索方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一中的可配置语法关系的检索方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的可配置语法关系的检索方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的可配置语法关系的检索方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(RandomAccess Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的可配置语法关系的检索方法、***、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

表2：CTB词性标注标签

/>

表3：UD依存关系标签

/>

Claims

1.一种可配置语法关系的检索方法，其特征在于，包括，

获取待检索目标，所述待检索目标包括检索文本，将所述检索文本以句子为单位分割；分割而成的单个句子形成检索词条，分割而成的所有句子形成检索词条列表；所述检索词条包括若干分词；

识别所述待检索目标中是否存在语法关系配置表，若有则提取所述语法关系配置表，若无则构建语法关系配置表；所述语法关系配置表包括各分词之间的语法关系，所述语法关系包括所述分词之间的依存关系，与所述分词本身的词性；

所述语法关系储存格式为：termSRC|posSRC，termDST|posDST，dep；

所述依存关系为具体依存关系或模糊依存关系，当所述依存关系为模糊依存关系时，dep＝*；

2.根据权利要求1所述的一种可配置语法关系的检索方法，其特征在于，

所述识别所述待检索目标中是否存在语法关系配置表，若有则提取所述语法关系配置表，若无则构建语法关系配置表步骤中，构建语法关系配置表的方法包括，

对所述全量词条列表进行随机取样得到样本词条列表；

3.根据权利要求1所述的一种可配置语法关系的检索方法，其特征在于，

所述基于所述语法关系配置表与所述全量词条列表进行语法关系匹配，输出符合语法关系匹配规则的词条，获得最终匹配列表步骤包括，

4.根据权利要求2所述的一种可配置语法关系的检索方法，其特征在于，所述语法关系分析方法包括，

5.根据权利要求4所述的一种可配置语法关系的检索方法，其特征在于，所述基于所述第一嵌套列表、第二嵌套列表与第三嵌套列表构建样本语法关系列表或全量语法关系列表步骤包括，

6.一种可配置语法关系的检索***，其特征在于，包括，

输入模块，所述输入模块用于输入或读取待检索目标；

文本分割模块，所述文本分割模块用于识别所述待检索目标中的检索文本，并对所述检索文本进行分割，形成检索词条列表；所述检索词条列表包括若干检索词条，所述检索词条包括若干分词；

第一匹配模块，所述第一匹配模块用于将所述检索词条列表与数据库进行正则匹配，形成全量词条列表；

语法配置识别模块，所述语法配置识别模块用于识别所述待检索目标中是否存在语法关系配置表；所述语法关系配置表包括各分词之间的语法关系，所述语法关系包括所述分词之间的依存关系，与所述分词本身的词性；所述语法关系储存格式为：termSRC|posSRC，termDST|posDST，dep；其中，termSRC为支配词，posSRC为所述支配词的词性，termDST为从属词，posDST为所述从属词的词性，dep为支配词与从属词之间的依存关系；所述支配词为具体词汇、模糊词汇或未知词；当所述支配词为模糊词汇时，termSRC＝*；当所述支配词为未知词时，termSRC＝[n]，(n＝0、1、2、……、n)；所述从属词为具体词汇、模糊词汇或未知词；当所述从属词为模糊词汇时，termDST＝*；当所述支配词为未知词时，termDST＝[n]，(n＝0、1、2、……、n)；所述词性为具体词性或模糊词性；当所述词性为模糊词性时，posSRC＝*；所述依存关系为具体依存关系或模糊依存关系，当所述依存关系为模糊依存关系时，dep＝*；

语法配置构建模块，所述语法配置构建模块用于构建语法配置表；

展示模块，用于输出最终匹配列表并进行排序展示。

7.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至5任一项所述的可配置语法关系的检索方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至5任一项所述的可配置语法关系的检索方法。