CN111737973A

CN111737973A - 自然语言检索语句解析方法、装置、设备和存储介质

Info

Publication number: CN111737973A
Application number: CN202010610757.8A
Authority: CN
Inventors: 喻守益
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-02

Abstract

本申请提供了一种自然语言检索语句解析方法、装置、设备和存储介质，其中，该方法包括：对输入的语句进行实体词识别和疑问词识别，分别得到实体词识别结果和疑问词识别结果；根据所述实体词识别结果和所述疑问词识别结果，对所述输入的语句进行依存句法分析，得到依存句法分析结果；根据所述依存句法分析结果和概念知识图谱，对目标对象进行解析，得到目标对象解析结果。本申请实施例进行实体识别和句法分析后，结合领域概念知识图谱进行知识推理，识别出检索语句的意图；完成目标对象的解析所需的语料和规则配置较少，精确度较高。

Description

自然语言检索语句解析方法、装置、设备和存储介质

技术领域

本申请涉及自然语言检索技术领域，具体而言，涉及一种自然语言检索语句解析方法、装置、设备和存储介质。

背景技术

随着互联网技术的发展，大规模网络数据资源的出现，人们希望从海量的互联网数据中准确、快速地获取有价值的信息，推动检索式的技术被广泛的应用，因此，自然语言检索***是目前自然语言处理的热门方向之一，该技术可以通过用户用自然语言输入问题，由***解析后返回对应的答案，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。

现有的自然语言检索中，语义解析主要识别用户的提问意图，传统的语义解析主要基于规则、统计模型、深度学习模型三种方式，基于规则的方法需要维护大量的规则，而基于统计模型和深度学习模型则需要依赖大量的语料，检索***通过几个关键字的组合这种浅层的语义分析，无法准确理解用户的检索意图，尤其是面对复杂的自然语言，检索***往往会导致疏漏信息，返回错误信息，返回信息太多，这些局限性使得检索的效果总是差强人意。现有技术在存在着开发和维护投入人力大、依赖的语料过多以及准确率不够的问题。

发明内容

有鉴于此，本申请实施例提供了一种自然语言检索语句解析方法、装置、设备和存储介质，以解决上述自然语言检索***中开发和维护投入人力大、依赖的语料过多以及准确率不够的问题。

第一方面，本申请实施例提供了一种自然语言检索语句解析方法，应用于自然语言检索领域中，包括：

对输入的语句进行实体词识别和疑问词识别，分别得到实体词识别结果和疑问词识别结果；

根据所述实体词识别结果和所述疑问词识别结果，对所述输入的语句进行依存句法分析，得到依存句法分析结果；

根据所述依存句法分析结果和概念知识图谱，对目标对象进行解析，得到目标对象解析结果。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述对输入的语句进行实体词识别得到实体词识别结果，包括：

对所述输入的语句进行分词，得到分词结果；

根据所述分词结果，对所述输入的语句进行实体词识别，得到实体词识别结果。

结合第一方面，本申请实施例提供了第一方面的第二种可能的实施方式，其中，对所述对输入的语句进行疑问词识别得到疑问词识别结果，包括：

基于疑问词识别规则和疑问词字典，对所述对输入的语句进行疑问词识别。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，对所述输入的语句进行分词前，还包括：

设定领域自定义词典，并根据所述领域自定义词典对所述输入的语句进行分词。

结合第一方面，本申请实施例提供了第一方面的第四种可能的实施方式，其中，对所述输入的语句进行分词，得到分词结果后，包括：

对所述分词结果进行词性标注，得到用于依存句法分析的词性标注结果。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，根据所述实体词识别结果和所述疑问词识别结果，对所述输入的语句进行依存句法分析，包括：

将所述分词结果、所述词性标注结果和所述实体词识别结果作为输入特征，输入依存句法分析模型算法，得到依存句法分析结果。

结合第一方面，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述方法还包括：

根据得到的所述目标对象解析结果搜索符合的答案。

第二方面，本申请实施例提供了一种自然语言检索语句解析装置，应用于自然语言检索领域，包括：

识别模块，用于对输入的语句进行实体词识别和疑问词识别，分别得到实体词识别结果和疑问词识别结果；

依存句法分析模块，用于根据所述实体词识别结果和所述疑问词识别结果，对所述输入的语句进行依存句法分析，得到依存句法分析结果；

目标对象解析模块，用于根据所述依存句法分析结果和概念知识图谱，对目标对象进行解析，得到目标对象解析结果。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述识别模块用于对输入的语句进行实体词识别得到实体词识别结果时，包括：

对所述输入的语句进行分词，得到分词结果；

结合第二方面，本申请实施例提供了第二方面的第二种可能的实施方式，其中，所述识别模块用于对所述对输入的语句进行疑问词识别得到疑问词识别结果时，包括：

结合第二方面，本申请实施例提供了第二方面的第三种可能的实施方式，其中，所述识别模块，还用于：

对所述输入的语句进行分词前，设定领域自定义词典，并根据所述领域自定义词典对所述输入的语句进行分词。

结合第二方面，本申请实施例提供了第二方面的第四种可能的实施方式，其中，所述识别模块，还用于：

对所述输入的语句进行分词，得到分词结果后，对所述分词结果进行词性标注，得到用于依存句法分析的词性标注结果。

结合第二方面，本申请实施例提供了第二方面的第五种可能的实施方式，其中，所述依存句法分析模块用于根据所述实体词识别结果和所述疑问词识别结果，对所述输入的语句进行依存句法分析时，包括：

结合第二方面，本申请实施例提供了第二方面的第六种可能的实施方式，其中，所述目标对象解析模块还用于：

根据得到的所述目标对象解析结果搜索符合的答案。

第三方面，本申请实施例提供了一种自然语言检索语句解析电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中任一项所述的自然语言检索语句解析方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面中任一项所述的自然语言检索语句解析方法。

本专利发明一种自然语言检索语句的目标对象解析方法，抛弃传统的采用分类模型进行意图识别的方法，而是应用迁移学习的思路，进行实体识别和句法分析后，结合领域概念知识图谱进行知识推理，能够非常精确识别出检索语句的意图，完成目标对象的解析所需的语料和规则配置较少。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种自然语言检索语句解析方法的流程图；

图2示出了本申请实施例所提供的一种自然语言检索语句解析方法中，目标对象解析流程图的流程图；

图3示出了本申请实施例所提供的一种自然语言检索语句解析方法中，疑问词示例图；

图4示出了本申请实施例所提供的一种自然语言检索语句解析方法中，依存句法分析结果示例图；

图5示出了本申请实施例所提供的一种自然语言检索语句解析方法中，目标对象判断的规则描述。

图6示出了本申请实施例所提供的一种自然语言检索语句解析方法中，测试的准确率表；

图7示出了本申请实施例所提供的一种自然语言检索语句解析装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本专利发明一种自然语言检索语句的目标对象解析方法，应用于自然语言检索***，在自然语言检索***中，需要对用户输入的检索语句进行意图解析，例如“今天乘G8去北京的男性”、“查找红色的车”、“张三的电话号码是多少？”、“今天和王五同行的女性是谁？”。

本申请抛弃传统的采用分类模型进行意图识别的方法，而是应用迁移学习的思路，进行实体识别和句法分析后，结合领域概念知识图谱进行知识推理，能够非常精确识别出检索语句的意图，完成目标对象的解析所需的语料和规则配置较少。

图1示出了本申请实施例所提供的一种自然语言检索语句解析方法的流程图，如图1所示，该方法包括以下步骤：

S1：对输入的语句进行实体词识别和疑问词识别，分别得到实体词识别结果和疑问词识别结果。

当用户输入语句，对用户输入的语句进行实体词识别，涉及通用实体和领域实体识别，其中通用实体包括人名、地名、组织机构名、数字、百分比、金额等通用的实体。领域实体指的是与业务领域相关的实体，例如在公安领域，车牌号、航班号、身份证号、户籍地、身高、体型、颜色、车型、道路名称、网吧名称、酒店名称等均为领域实体。

实体词识别步骤中，还有关系词识别和属性词识别。关系词识别对自定义的关系进行识别，关系识别的方法同实体识别，但关系除了名词之外，还可以是动词。关系识别使用规则识别的方法，用字典维护。如“父母”、“亲戚”、“同事”、“同行”、“殴打”、“任职”等业务领域词汇。

属性词识别对自定义的属性进行识别，属性识别的方法也同实体识别。属性识别使用规则识别的方法，用字典维护。如“身高”、“体型”、“血型”等业务领域词汇。

S2：根据所述实体词和疑问词识别结果，对所述输入的语句进行依存句法分析，得到依存句法分析结果。图2示出了本申请实施例所提供的一种自然语言检索语句解析方法中，目标对象解析流程图的流程图。

句法分析是研究句子中的短语结构或者词汇之间的依存关系，包括短语结构分析和依存句法分析两类任务。其中短语结构分析是研究句子中的短语结构，如名词短语、动词短语、动宾短语等，而依存句法分析是研究句子中所有词汇的依存关系。

请参考图4示，出了本申请实施例所提供的一种自然语言检索语句解析方法中，依存句法分析结果示例图。以分词、词性、实体识别的结果作为特征，输入至依存句法分析模型，建立依存句法树。上述依存句法分析模型包括Stack LSTM模型、基于CRF的中文句法依存分析模型等，依存关系本身是一个树结构，每一个词看成一个节点，依存关系就是一条有向边。

S3：根据所述依存句法分析结果和概念知识图谱，对目标对象进行解析，得到目标对象解析结果。

利用句法规则结合概念知识图谱进行知识推理，完成目标对象的解析；在本实施例中，目标对象可以是实体词，也可以指关系词、属性词等。

基于上述分析可知，本申请实施例提供的一种自然语言检索语句解析方法，与基于规则的方法相比，不需要维护大量的规则，从开发和维护角度都大大减少了所投入的人力，而与基于统计模型和深度学习模型相比，不需要依赖大量的语料。本专利发明一种自然语言检索语句的目标对象解析方法，抛弃传统的采用分类模型进行意图识别的方法，而是应用迁移学习的思路，进行实体识别和句法分析后，结合领域概念知识图谱进行知识推理，能够非常精确识别出检索语句的意图，而且以最少的语料和规则配置完成目标对象的解析。

在本申请的另一种实施例中，实体识别所使用的方法包括有：规则结合字典、biLSTM+CRF模型以及复合方法等。

规则结合字典对于有明确规则简单实体，如身份证号、手机号、车牌号、火车车次等，采用规则的方式进行识别和有效性检验。

对于规则比较多变，较复杂的实体，例如时间实体，模型采用超过300种规则对时间实体进行识别及标准化。

对于依赖于知识(可变)的枚举型实体，如民族、品牌、省份、颜色等，则建立知识库进行定期维护。

biLSTM+CRF模型，对于没有明确规则，无法枚举的实体，采用深度学习+CRF模型进行训练，识别出实体的类型与边界。使用该模型进行实体识别的有：人名、地名、机构名(细分有企业名称、酒店名称、网吧名称等机构)。

复合方法部分实体是依赖其他实体的基础上进行识别，例如身高(数字+单位)、出生日期(出生描述规则+日期)、出生地(出生描述规则+地址)、路径(地址/城市+地址/城市)，该情况需要先识别出所依赖的实体，再进行识别，可能同时涉及到模型和规则

请参考图3，图3示出了本申请实施例所提供的一种自然语言检索语句解析方法中，疑问词示例。疑问词识别使用规则结合字典的识别方法利用疑问词库、中文的量词库、常用的形容词库。

在本申请的一种实施例中，采用开源的基于转移的依存分析方法，用公开的Chinese Dependency Treebank***测试集作为语料，采用StackLSTM神经网络作为分类器，训练依存句法树的构建模型。

请参考图5，图5示出了本申请实施例所提供的一种自然语言检索语句解析方法中，目标对象判断的规则描述，在该实施例中，利用句法规则结合概念知识图谱进行知识推理，从而完成目标对象的解析(目标对象可以是实体词，也可以指关系词、属性词)，分为五种情况：

1.疑问词依存的实体词，即选取为目标对象。如：“哪个地方”、“什么时间”、“哪个职位”、“什么关系”。则目标对象分别为“地方”、“时间”、“职位”、“关系”对应的实体或关系类型。若疑问词为“多少”、“几”，且有关系为VOB(动宾关系)的谓词“有”，则为统计个数的意图，应返回数值类型答案(统计意图不在本专利的研究范围内)。

2.疑问词没有直接依赖的实体，但本身带有实体信息，则选取该实体为目标对象。如“谁”、“哪里”、“哪天”的目标对象分别为“人”、“地址”、“时间”。

3.疑问词没有直接依赖的实体，也不带有实体信息。则查找满足下述任意一个条件的谓词V：a)与疑问词的关系为VOB(动宾关系)；b)与某个介词的关系为CMP，且该介词与疑问词的关系为POB。(即疑问词作宾语的情况)；

如果有实体E(可以是实体词、属性词、关系词中任一种)依存于该谓词，且关系为SBV(主谓关系)。则分为两种情况：

3.1当谓词为关系词时，则选取该谓词为目标对象。检索结果对应的实体类型是：以实体E作为主体，谓词为关系，而以概念知识图谱中的客体类型为目标对象。如“张三昨天住哪”、“张三就职于哪？”，由于“住”是关系词(也是目标对象)，“张三”是实体词E1，则查阅概念知识图谱的SPO三元组类型(人->住->地点)，则返回的结果为“地点”类型。同理，第二句话“就职”为关系词(也是目标对象)，返回的结果为“公司”类型。

3.2当谓语不是关系词时，则选取实体E作为目标对象。如谓词包含“是”、“为”、“叫”、“叫做”、“有”，不论实体E为实体词或关系词，都将实体E作为目标对象。如“王小明的身高是多少”、“柳梅的体重有多少斤”，解析的目标对象为“身高”、“体重”。

4.疑问词没有直接依赖的实体，则查找与疑问词的关系为SBV(动宾关系)的谓词V。(即疑问词作主语的情况)

如果有实体E与谓词的关系满足下述任意一个条件：a)与谓词的关系为VOB(动宾关系)；b)与某个介词的关系为POB，且该介词与谓词的关系为POB。则分为两种情况：

4.1当谓词为关系词时，则选取该谓词为目标对象。检索结果对应的实体类型是：以实体E作为客体，谓词为关系，而以概念知识图谱中的主体类型为目标对象。如“谁昨天住在全季酒店”，由于“住”是关系词(也是目标对象)，“全季酒店”是实体词E，则查阅概念知识图谱的SPO三元组类型(人->住->地点)，则返回的结果为“人”类型。

4.2当谓语不是关系词时，则选取实体E作为目标对象。如谓词包含“是”、“为”、“叫”、“叫做”、“有”，不论实体E为实体词或关系词，都将实体E作为目标对象。如“哪个是犯罪嫌疑人”，解析的目标对象为“犯罪嫌疑人”。

5.没有出现疑问词的情况，则以句子中出现的最后一个实体E(可以是实体词、属性词、关系词中任一种)作为目标对象。如实体E为实体词，则作为目标对象；若为属性词或关系词，则查阅概念知识图谱的SPO三元组类型(人->住->地点)，对应的客体即为返回的实体类型。

除此之外，还有未识别到实体的情况，可能由于实体识别不准确或知识图谱未覆盖造成的，则返回“未能解析”的信息。

本申请的技术方案的检测，以检索语料作为应用案例，测试的准确率如图6所示。

基于上述内容可知，与相关技术中的建模等方法相比，本申请抛弃传统的采用分类模型进行意图识别的方法，而是应用迁移学习的思路，进行实体识别和句法分析后，结合领域概念知识图谱进行知识推理，完成目标对象的解析所需的语料和规则配置较少，并且能够非常精确识别出检索语句的意图。

图7示出了本申请实施例所提供的一种自然语言检索语句解析装置的结构示意图，如图7所示，该装置包括：

识别模块71，用于对输入的语句进行实体词识别和疑问词识别，分别得到实体词识别结果和疑问词识别结果；

依存句法分析模块72，用于根据所述实体词识别结果和所述疑问词识别结果，对所述输入的语句进行依存句法分析，得到依存句法分析结果；

目标对象解析模块73，用于根据所述依存句法分析结果和概念知识图谱，对目标对象进行解析，得到目标对象解析结果。

在一个可行的实施方案中，所述识别模块71用于对输入的语句进行实体词识别得到实体词识别结果时，包括：

对所述输入的语句进行分词，得到分词结果；

在一个可行的实施方案中，所述识别模块71用于对所述对输入的语句进行疑问词识别得到疑问词识别结果时，包括：

在一个可行的实施方案中，所述识别模块71，还用于：

在一个可行的实施方案中，所述依存句法分析模块72用于根据所述实体词识别结果和所述疑问词识别结果，对所述输入的语句进行依存句法分析时，包括：

在一个可行的实施方案中，所述目标对象解析模块73还用于：

根据得到的所述目标对象解析结果搜索符合的答案。

一种自然语言检索语句解析装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的***、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种自然语言检索语句解析方法，应用于自然语言检索领域中，其特征在于，包括：

2.根据权利要求1所述的自然语言检索语句解析方法，其特征在于，所述对输入的语句进行实体词识别得到实体词识别结果，包括：

对所述输入的语句进行分词，得到分词结果；

3.根据权利要求1所述的自然语言检索语句解析方法，其特征在于，对所述对输入的语句进行疑问词识别得到疑问词识别结果，包括：

4.根据权利要求2所述的自然语言检索语句解析方法，其特征在于，对所述输入的语句进行分词前，还包括：

5.根据权利要求2所述的自然语言检索语句解析方法，其特征在于，对所述输入的语句进行分词，得到分词结果后，包括：

6.根据权利要求5中任意一项所述的自然语言检索语句解析方法，其特征在于，根据所述实体词识别结果和所述疑问词识别结果，对所述输入的语句进行依存句法分析，包括：

7.一种自然语言检索语句解析装置，应用于自然语言检索领域，其特征在于，包括：

8.根据权利要求7所述的自然语言检索语句解析装置，其特征在于，还包括：

检索模块，用于根据得到的所述目标对象解析结果搜索符合的答案。

9.一种自然语言检索语句解析电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的自然语言检索语句解析方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的方法的步骤。