CN112651226B

CN112651226B - 基于依存句法树的知识解析***及方法

Info

Publication number: CN112651226B
Application number: CN202010997505.5A
Authority: CN
Inventors: 裴正奇; 王树徽; 朱斌斌; 刘潇; 段必超; 于秋鑫; 余志炜
Original assignee: Shenzhen Qianhai Heidun Technology Co ltd
Current assignee: Shenzhen Qianhai Heidun Technology Co ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2022-03-29
Anticipated expiration: 2040-09-21
Also published as: CN112651226A

Abstract

本发明提出一种基于依存句法树的知识解析***及方法。一种基于依存句法树的知识解析***，包括：知识库模块和解析模块。本发明提出的基于依存句法树的知识解析方法使中文语境中的知识点能够被明确定义，以供精准解析。知识库可实时动态维护，清晰可控，对于不合理的问题部分可直接定位并解决，不再像传统深度学习模型如同“黑箱子”一般不可解析。使知识解析场景不再受中文语法/句法的多样性及复杂性所局限，只要保证知识库的资源足够优质且全面，就可极大限度地满足场景应用需求。

Description

基于依存句法树的知识解析***及方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于依存句法树的知识解析***及方法。

背景技术

依存句法分析是自然语言处理当中的重要组成部分。依存句法能够体现自然语言的内在逻辑规律，是一种突破语种制约、存在于各个语系的句法理论。“依存句法”的概念最早是印度的语言学家Panini在公元前4世纪提出来的，最初的意图是针对语法、句法、语义与依存形态进行分门别类的研究，1959年法国语言学家Lucien Tesniere出版的《结构句法基础》一书一直被认为是现代依存句法的理论基础，1970年Robinson基于依存句法提出了四大依存公理，为依存句法奠定了理论结构基础，这四条公理是：(1)单纯节点条件：仅包含底层叶子节点；(2)单一父节点条件：依存树中所有的非根节点都有一个且只有一个父节点；(3)独根节点条件：一颗完整的依存树只包含一个根节点，其他所有节点依赖于根节点；(4)互斥条件：依存树中兄弟节点的前驱关系和父子节点的从属关系之间是互斥的，也就是说如果两个节点之间存在着支配与被支配的关系，则它们之间可能是没有前驱关系的。依存句法分析通过建立形式化的数学模型，设计有效的算法，利用计算机分析和处理句子，将其从词序列形式转换为句法树形式，从而捕捉句子内部结构和词语之间的依存关系，以揭示其句法结构，其主张句子中核心动词是支配其它成分的中心成分，而它本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。计算机进行依存句法分析，即是对给定输入句子的词序列，分析各个词之间的搭配关系和整个句子的结构，并得到一棵依存句法分析树。依存句法分析树就是依存句法分析结果的表示形式。目前主流的依存句法研究主要集中在数据驱动的依存句法分析方法上，即在训练数据集上进行迭代学习，从而得到依存句法分析器，主要有两种主流方法：基于移进-规约的依存分析方法(Transition-based Dependency Parsing)和基于图的依存分析方法(Graph-basedDependency Parsing)。前者是将依存句法分析书的生成过程建模为一个动作序列，将依存分析问题转化为寻找最优动作序列问题；后者是将依存句法分析问题转化为从完全有向图中寻找最大生成树的问题。

然而，现有技术中的依存句法分析方法存在以下问题：

(1)语言学过度的依赖“就近原则”，语言学家通过观察总结出了人类在语言组织上存在“就近”原则，也就是说人们在组织语言时会主动将修饰成分放在中心成分周围。然而自然语言不是完全按照这样一个原则存在的，比如，对于长距离依存关系的识别，因为“就近原则”实质上已经蕴含了短距离的依存关系相比较长距离的依存关系具有更大的可能性、更高的优先级，而并列结构中，通常每个成分在语义层次上是具有同等的地位，甚至可以相互交换位置也不会影响到语义关系，这就导致分析的准确性下降。

(2)通过依存句法来分析判断文本非常依赖庞大而优良的语料库，建立语料库最大的任务就是作对齐，对齐效率越高，准确率越高，用处就越大。而现有的语料库存在一些问题，例如，整体发展不平衡，主要表现在书面语语料和口语语料库数量相差悬殊，是由于口语语料的搜集和取样过程较为复杂和繁琐。语料库的准确率无法保证，在庞大的语料库中包含了很多有待修改的语句，根本原因是缺少有效的自查方法。这些问题都反映出了对于灵活、准确建立语料库的迫切需求。

发明内容

为了解决现有技术中的上述问题，本申请提出的技术方案如下：

根据本发明的一个方面，公开了一种基于依存句法树的知识解析***，包括：知识库模块和解析模块；其中知识库模块包括：

分词模块，根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系；

依存句法树生成模块，汇总涵盖目标知识点的语句，并利用依存句法模型得到所有语句的依存句法树，并标注核心词；

简化处理模块，保留依存句法树生成模块中获得的所述依存句法树中的核心词，简化处理冗余词及其周边结构；

计算模块，计算得到各个核心词的毗邻特征，将各个知识点的核心词对应的毗邻特征存存储形成知识库；

其中，解析模块包括：

句法树处理模块，将用户输入的文本经依存句法树处理得到对应的分词结果；

毗邻特征对比模块，对比获取的各个词语的毗邻特征和知识库中各个毗邻特征，如果匹配度大于第一阈值，则判断知识库中的毗邻特征所对应的词语是否与毗邻特征获取模块中核心词的毗邻特征近似，如果是则输出解析结果，如果不是则提示知识库中的毗邻特征所对应的词语。

根据本发明的一个方面，还公开了一种基于依存句法树的知识解析方法，包括以下步骤：

步骤S1、根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系；

步骤S2、汇总涵盖目标知识点的语句，并利用依存句法模型得到所有语句的依存句法树，并标注核心词；

步骤S3、保留步骤S2中获得的所述依存句法树中的核心词，简化处理冗余词及其周边结构；

步骤S4、计算得到各个核心词的毗邻特征，将各个知识点的核心词对应的毗邻特征存存储形成知识库；

步骤S5、将用户输入的文本经依存句法树处理得到对应的分词结果；

步骤S6、对比获取的各个词语的毗邻特征和知识库中各个毗邻特征，如果匹配度大于第一阈值，则判断知识库中的毗邻特征所对应的词语是否与核心词的毗邻特征近似，如果是则输出解析结果，如果不是则提示知识库中的毗邻特征所对应的词语。

与现有技术相比，本发明具有如下有益效果：

1.使中文语境中的知识点能够被明确定义，以供精准解析。

2.知识点能够被高效且明确地储存，即，知识点不再是独立且模糊地储存，而是相对于特定语境、特定词语进行了具体的储存，由此提升知识点检索的精确度。

3.对用于描述特定语境下的知识点的知识树(毗邻特征)进行一系列的筛减处理，根据各个依存关系(例如COO、ATT)的语言学特征进行量身定制。

4.使中文语境中的知识点能够被精准解析，例如用户输入“茅台酒以大米做成酒曲”，解析***能够根据知识库中预存的关于“茅台酒”、“酒曲”等语境的知识点，对用户输入的文本进行知识纠错，告知“大米”应当被纠正为“小麦”。

5.知识库可实时动态维护，清晰可控，对于不合理的问题部分可直接定位并解决，不再像传统深度学习模型如同“黑箱子”一般不可解析。

6.使知识解析场景不再受中文语法/句法的多样性及复杂性所局限，只要保证知识库的资源足够优质且全面，就可极大限度地满足场景应用需求。

附图说明

图1为根据本发明的技术方案建立动态结构化知识库的流程图；

图2为根据本发明的技术方案计算毗邻特征的流程图；

图3为根据本发明的技术方案获取解析结果的示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明的技术方案做详细描述。

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

如图1为根据本发明的技术方案建立动态结构化知识库的流程图。中文语境中的知识点能够被明确定义，以供精准解析。知识点能够被高效且明确地储存，即，知识点不再是独立且模糊地储存，而是相对于特定语境、特定词语进行了具体的储存。具体地，本发明的一种基于依存句法树的知识解析***，包括：知识库模块和解析模块；其中知识库模块包括：

计算模块，计算得到各个核心词的毗邻特征，将各个知识点的核心词对应的毗邻特征存存储形成知识库。

其中，解析模块包括：

根据本发明的一个方面，公开了一种基于依存句法树的知识解析方法，包括以下步骤：

步骤S4、计算得到各个核心词的毗邻特征，将各个知识点的核心词对应的毗邻特征存存储形成知识库。

所述步骤S1中，各词之间的依存句法关系是定向的。每个句子至少存在一个根源词，对于除根源词之外的任意词，仅有一个父节点和至少一个子节点。

所述步骤S3中，所述简化处理包括：如果两个冗余词存在依存关系，则将这两个冗余词合并为一个新的冗余词；如果两个词的依存关系为并列关系，则共享这两个词各自的父节点和子节点。

在步骤S1中，需要首先准备已经预训练完毕的依存句法模型(DependencyParser)。该模型能够对自然语言语句进行分词处理并标明各成分之间的句法依存关系。细节如下：

给定由n个字符构成的语句S＝S₁S₂S₃…S_n，经过依存句法树处理之后，语句S变为由m个词构成的结构S＝W₁W₂W₃…W_m，并且获得各个词之间的依存句法关系，例如R(W_i,W_j)＝SBV，代表W_i与W_j之间是SBV(主谓)关系。W_j是W_i的父节点，W_i是W_j的子节点。

具体地，在步骤S1中，各词之间的依存句法关系是定向的，即R(W_i,W_j)≠R(W_j,W_i)。每个句子必定存在一个根源词W_root。对于除了根源词W_root之外的任意词W_i，有且仅有一个词W_j与其存在R(W_i,W_j)的关系；即W_i仅有一个父节点。对于某个词W_j，可以有多个词(例如W₁、W₂、W₃)与之存在诸如R(W₁,W_j)、R(W₂,W_j)、R(W₃,W_j)的关系；即W_j可以有多个子节点。

具体地，在步骤S1中，将涵盖目标知识点的语句进行汇总，并利用依存句法模型得到所有语句的依存句法树，并将核心词进行标注。例如语句“中国的茅台酒使用优质的高粱作为原料”，我们可将能够构成知识点的核心词标注出来：茅台、酒、高粱、原料；非核心词也可被称为“冗余词”。

具体地，在步骤S1中，对获得的依存句法树进行一系列的筛减简化处理，保留核心词，将冗余词及其周边结构进行简化处理，形成针对各个知识点的依存句法结构，和规范化的知识树，并将其储存以供后续使用。简化处理手段包括：

如果两个冗余词x_i，x_j存在依存关系，且R(x_i，x_j)＝ATT(这里的ATT代表“定中关系”，例如“红”与“苹果”就是定中关系)，则可将x_i，x_j合并为一个新的冗余词，从而达到简化的目的。

如果两个词W_i，W_j的依存关系为R(W_i，W_j)＝COO(这里的COO代表“并列关系”)，那么W_i的父节点和子节点与W_j的父节点和子节点是可以共享的。

上述依存关系还可以是附录中的依存关系表所示的任意关系类型。

如图2为根据本发明的技术方案计算毗邻特征的流程图。具体地，在步骤S4中，计算得到各个核心词的毗邻特征，任意词W_i的毗邻特征F_i代表着W_i与其它各词语之间的关系；

其中，g_ij代表在规范化的知识树中，从W_i所在的节点到W_j所在的节点之间的路径；该路径既可以经过神经网络模型编码为高维度的向量，也可表达为具体的函数关系，从而可以对两个不同的路径的结构(各个节点之间的依存关系)及内容(路径上面各个核心词的内容)进行比较。为了简化处理，计算毗邻特征F_i可以仅考虑核心词，忽略冗余词。在某知识树中的某核心词W_i的毗邻特征计作F_i。

在特定知识语句S^(x)的知识树中的特定核心词W_i的毗邻特征记作F_i ^(x)将各个知识点的各个核心词的毗邻特征都储存起来，形成知识库，储存单元的结构为

F_i ^(x)→W_i

严格来说，W_i以及F_i ^(x)中的各个核心词既可以用高维向量的形式来表达，也可以用一系列近义词的集合来表达，从而确保能够处理近义词替换的情况。

在建立了知识库后，即可利用本发明的基于依存句法树的知识解析***对用户的输入进行解析，如图3所示为根据本发明的技术方案获取解析结果的示意图，其包括以下步骤：

具体地，在步骤S5中，给定用户输入的文本S^(U)＝S₁S₂S₃...S_n，经过依存句法树处理之后可得依存句法树，对应的分词结果为S^(U)＝W₁W₂W₃...W_m。

具体地，在步骤S6中，获得各个词语的毗邻特征

例如针对用户文本中的核心词W_i ^(U)，获取其在用户输入文本中的毗邻特征F_i ^(U)。

具体地，在步骤S6中，将知识库里面各个毗邻特征F_a，F_b，F_c...与F_i ^(U)作对比，取匹配度最高的毗邻特征(例如F_j)，如果该匹配度高于某个阈值(如第一阈值)，则获取该毗邻特征在知识库中对应的词语W_j，则词语W_j应当与核心词W_i ^(U)高度近似，如若不够近似，说明用户输入的文本中的核心词W_i ^(U)与该知识库不相融，应当被标明并纠正，从而实现知识审核/纠错等一系列的知识解析操作。

匹配度的计算可以通过比较两个词的语义近似度。例如可以通过对比两个词的词向量，也可以事先定义近义词表，在近义词表内查询彼此是否为近义词。

优选地，还可以为毗邻特征中的核心词和其它词配置不同的权重从而计算得到的总分，将该总分作为解析结果输出。例如核心词相似配置为第一权重，冗余词配置为第二权重。如判断毗邻特征近似则输出值为1，不相似则输出值为0。将输出值与其对应的权重相乘，最后统计总体得分情况作为相似度结果。由于本发明实施例中的权重不同，因此如果核心词越相似则分数越高，提高了本***的解析精准度。

实施例一：

根据本发明的实施例一，可以通过事先构建动态结构化知识库再通过解析算法模块对用户的输入实现智能纠错和智能填充的效果。

构建动态结构化知识库：

假设一条知识语句为“爱因斯坦在1905年奇迹年提出了狭义相对论，并阐述了光电效应原理”，经过依存句法树的处理之后可以得到：

假设我们关注的知识点是“爱因斯坦在1905年提出光电效应原理”，那么我们需要将如下词语标注为核心词：“爱因斯坦”、“1905年”、“光电”、“效应”、“原理”。进行一系列的筛减简化处理可以得到规范化的知识树：

这里用“G_”开头的变量代表着核心词，用“t_”开头的变量代表着冗余词，具体的词表为：

{'G_0':['爱因斯坦'],'t_1':[”],'G_2':['1905年'],'t_4':[”],'G_12':['光电'],'G_13':['效应'],'G_14':['原理']}

为了便于展示，这里没有采用高维度向量的方式代表词语，而是采用了近义词集合的形式。

词“爱因斯坦”的毗邻特征实际上就是从“爱因斯坦”这个词所在的节点(即“G_0”)出发，分别到其它词的路径的汇总，如下为“爱因斯坦”的毗邻特征(记作

)：

其中“f”和“b”分别代表正向(从子节点到父节点)和逆向(从父节点到子节点)，举例来讲，从“G_0”到“G_13”的路径可从图中的索引“G_13”获取，即

[['G_0',['f','SBV'],'t_1'],

['t_1',['b','VOB'],'G_14'],

['G_14',['b','ATT'],'G_13']]

代表从“G_0”到“G_13”需要先正向走到某个冗余节点“t_1”，期间的依存关系为SBV，再从“t_1”逆向走到核心节点“G_14”，期间的依存关系为VOB，最后再逆向走到“G_13”，期间的依存关系为ATT。判断两个路径是否一致不仅要比较两路径各节点之间的依存关系是否一致，还要比较各节点的内容是否一致或足够近似。

重复以上步骤，采集海量的知识语句，每个知识语句可能对应不止一条知识点，按照前述步骤为每个知识点生成知识树，并得到知识树里各个节点W_i的毗邻特征

再将各个毗邻特征作为索引进行储存。

智能解析过程：

假设用户输入“在1995年，德国的物理学家爱因斯坦证明了光电效应原理”，则得到的依存句法树为：

获取各个词语的毗邻特征。遍历知识库里面储存的各个毗邻特征，判断各个词语的毗邻特征是否与知识库里某个预存的毗邻特征完全匹配，最终发现，“1995年”一词的毗邻特征与知识库中某个以“1905年”一词作为数值的毗邻特征

完全匹配。因此，“1995年”一词应

当与知识库中的G_2节点内容一致，也就是说，“1995年”一词只有被替换为“1905年”才能保证用户输入的语句不会与知识库发生冲突。

为了防止被误纠正，假如“1995年”一词的毗邻特征与知识库中另一个预存的毗邻特征也完全匹配，而且“1995年”一词与该毗邻特征对应的节点一致，那么之前所述与毗邻特征

冲突的情况就失效了。

又例如用户输入“茅台酒以大米做成酒曲”，解析***能够根据知识库中预存的关于“茅台酒”、“酒曲”等语境的知识点，对用户输入的文本进行知识纠错，告知“大米”应当被纠正为“小麦”。

实施例二：

根据利用本发明的解析***还可以实现知识智能填充。假如用户向本发明的***输入“在x，德国的物理学家爱因斯坦证明了光电效应原理”的形式，之后***只需针对x来进行知识库检索，从而实现“知识填充”的产品效果。用户输入“爱因斯坦获得了x年的诺贝尔y奖”，则***会告知x是“1921”，y是“物理学”。检索过程与实施例一中的相同。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

附录，依存关系表：

关系类型	Tag	Description	Example
				主谓关系	SBV	subject-verb	我送她一束花(我<--送)
动宾关系	VOB	直接宾语，verb-object	我送她一束花(送-->花)
				间宾关系	IOB	间接宾语，indirect-object	我送她一束花(送-->她)
前置宾语	FOB	前置宾语，fronting-object	他什么书都读(书<--读)
				兼语	DBL	double	他请我吃饭(请-->我)
定中关系	ATT	attribute	红苹果(红<--苹果)
				状中结构	ADV	adverbial	非常美丽(非常<--美丽)
动补结构	CMP	complement	做完了作业(做-->完)
				并列关系	COO	coordinate	大山和大海(大山-->大海)
介宾关系	POB	preposition-object	在贸易区内(在-->内)
				左附加关系	LAD	left adjunct	大山和大海(和<--大海)
右附加关系	RAD	right adjunct	孩子们(孩子-->们)
				独立结构	IS	independent structure	两个单句在结构上彼此独立
标点	WP	punctuation	。
				核心关系	HED	head	指整个句子的核心

Claims

1.一种基于依存句法树的知识解析***，其特征在于，包括：知识库模块和解析模块；其中，知识库模块包括：

计算模块，计算得到各个核心词的毗邻特征，将各个知识点的核心词对应的毗邻特征存储形成知识库；

其中，解析模块包括：

2.根据权利要求1所述的基于依存句法树的知识解析***，其特征在于：所述分词模块中，各词之间的依存句法关系是定向的。

3.根据权利要求1所述的基于依存句法树的知识解析***，其特征在于：所述分词模块中，每个句子至少存在一个根源词，对于除根源词之外的任意词，仅有一个父节点和至少一个子节点。

4.根据权利要求1所述的基于依存句法树的知识解析***，其特征在于：所述简化处理模块中，如果两个冗余词存在依存关系，则将这两个冗余词合并为一个新的冗余词；如果两个词的依存关系为并列关系，则共享这两个词各自的父节点和子节点。

5.一种基于依存句法树的知识解析方法，其特征在于，包括以下步骤：

步骤S4、计算得到各个核心词的毗邻特征，将各个知识点的核心词对应的毗邻特征存储形成知识库；

6.根据权利要求5所述的基于依存句法树的知识解析方法，其特征在于：所述步骤S1中，各词之间的依存句法关系是定向的。

7.根据权利要求5所述的基于依存句法树的知识解析方法，其特征在于：所述步骤S1中，每个句子至少存在一个根源词，对于除根源词之外的任意词，仅有一个父节点和至少一个子节点。

8.根据权利要求5所述的基于依存句法树的知识解析方法，其特征在于：所述步骤S3中，所述简化处理包括：如果两个冗余词存在依存关系，则将这两个冗余词合并为一个新的冗余词；如果两个词的依存关系为并列关系，则共享这两个词各自的父节点和子节点。

9.一种智能学习内容推送***，其特征在于，包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，处理器执行如权利要求5-8中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储计算机程序，其特征在于，该程序被处理器执行时实现如权利要求5-8中任意一项所述的方法。