CN112651226B - 基于依存句法树的知识解析***及方法 - Google Patents

基于依存句法树的知识解析***及方法 Download PDF

Info

Publication number
CN112651226B
CN112651226B CN202010997505.5A CN202010997505A CN112651226B CN 112651226 B CN112651226 B CN 112651226B CN 202010997505 A CN202010997505 A CN 202010997505A CN 112651226 B CN112651226 B CN 112651226B
Authority
CN
China
Prior art keywords
words
knowledge
dependency
word
dependency syntax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010997505.5A
Other languages
English (en)
Other versions
CN112651226A (zh
Inventor
裴正奇
王树徽
朱斌斌
刘潇
段必超
于秋鑫
余志炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Heidun Technology Co ltd
Original Assignee
Shenzhen Qianhai Heidun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Heidun Technology Co ltd filed Critical Shenzhen Qianhai Heidun Technology Co ltd
Priority to CN202010997505.5A priority Critical patent/CN112651226B/zh
Publication of CN112651226A publication Critical patent/CN112651226A/zh
Application granted granted Critical
Publication of CN112651226B publication Critical patent/CN112651226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于依存句法树的知识解析***及方法。一种基于依存句法树的知识解析***,包括:知识库模块和解析模块。本发明提出的基于依存句法树的知识解析方法使中文语境中的知识点能够被明确定义,以供精准解析。知识库可实时动态维护,清晰可控,对于不合理的问题部分可直接定位并解决,不再像传统深度学习模型如同“黑箱子”一般不可解析。使知识解析场景不再受中文语法/句法的多样性及复杂性所局限,只要保证知识库的资源足够优质且全面,就可极大限度地满足场景应用需求。

Description

基于依存句法树的知识解析***及方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于依存句法树的知识解析***及方法。
背景技术
依存句法分析是自然语言处理当中的重要组成部分。依存句法能够体现自然语言的内在逻辑规律,是一种突破语种制约、存在于各个语系的句法理论。“依存句法”的概念最早是印度的语言学家Panini在公元前4世纪提出来的,最初的意图是针对语法、句法、语义与依存形态进行分门别类的研究,1959年法国语言学家Lucien Tesniere出版的《结构句法基础》一书一直被认为是现代依存句法的理论基础,1970年Robinson基于依存句法提出了四大依存公理,为依存句法奠定了理论结构基础,这四条公理是:(1)单纯节点条件:仅包含底层叶子节点;(2)单一父节点条件:依存树中所有的非根节点都有一个且只有一个父节点;(3)独根节点条件:一颗完整的依存树只包含一个根节点,其他所有节点依赖于根节点;(4)互斥条件:依存树中兄弟节点的前驱关系和父子节点的从属关系之间是互斥的,也就是说如果两个节点之间存在着支配与被支配的关系,则它们之间可能是没有前驱关系的。依存句法分析通过建立形式化的数学模型,设计有效的算法,利用计算机分析和处理句子,将其从词序列形式转换为句法树形式,从而捕捉句子内部结构和词语之间的依存关系,以揭示其句法结构,其主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。计算机进行依存句法分析,即是对给定输入句子的词序列,分析各个词之间的搭配关系和整个句子的结构,并得到一棵依存句法分析树。依存句法分析树就是依存句法分析结果的表示形式。目前主流的依存句法研究主要集中在数据驱动的依存句法分析方法上,即在训练数据集上进行迭代学习,从而得到依存句法分析器,主要有两种主流方法:基于移进-规约的依存分析方法(Transition-based Dependency Parsing)和基于图的依存分析方法(Graph-basedDependency Parsing)。前者是将依存句法分析书的生成过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列问题;后者是将依存句法分析问题转化为从完全有向图中寻找最大生成树的问题。
然而,现有技术中的依存句法分析方法存在以下问题:
(1)语言学过度的依赖“就近原则”,语言学家通过观察总结出了人类在语言组织上存在“就近”原则,也就是说人们在组织语言时会主动将修饰成分放在中心成分周围。然而自然语言不是完全按照这样一个原则存在的,比如,对于长距离依存关系的识别,因为“就近原则”实质上已经蕴含了短距离的依存关系相比较长距离的依存关系具有更大的可能性、更高的优先级,而并列结构中,通常每个成分在语义层次上是具有同等的地位,甚至可以相互交换位置也不会影响到语义关系,这就导致分析的准确性下降。
(2)通过依存句法来分析判断文本非常依赖庞大而优良的语料库,建立语料库最大的任务就是作对齐,对齐效率越高,准确率越高,用处就越大。而现有的语料库存在一些问题,例如,整体发展不平衡,主要表现在书面语语料和口语语料库数量相差悬殊,是由于口语语料的搜集和取样过程较为复杂和繁琐。语料库的准确率无法保证,在庞大的语料库中包含了很多有待修改的语句,根本原因是缺少有效的自查方法。这些问题都反映出了对于灵活、准确建立语料库的迫切需求。
发明内容
为了解决现有技术中的上述问题,本申请提出的技术方案如下:
根据本发明的一个方面,公开了一种基于依存句法树的知识解析***,包括:知识库模块和解析模块;其中知识库模块包括:
分词模块,根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系;
依存句法树生成模块,汇总涵盖目标知识点的语句,并利用依存句法模型得到所有语句的依存句法树,并标注核心词;
简化处理模块,保留依存句法树生成模块中获得的所述依存句法树中的核心词,简化处理冗余词及其周边结构;
计算模块,计算得到各个核心词的毗邻特征,将各个知识点的核心词对应的毗邻特征存存储形成知识库;
其中,解析模块包括:
句法树处理模块,将用户输入的文本经依存句法树处理得到对应的分词结果;
毗邻特征对比模块,对比获取的各个词语的毗邻特征和知识库中各个毗邻特征,如果匹配度大于第一阈值,则判断知识库中的毗邻特征所对应的词语是否与毗邻特征获取模块中核心词的毗邻特征近似,如果是则输出解析结果,如果不是则提示知识库中的毗邻特征所对应的词语。
根据本发明的一个方面,还公开了一种基于依存句法树的知识解析方法,包括以下步骤:
步骤S1、根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系;
步骤S2、汇总涵盖目标知识点的语句,并利用依存句法模型得到所有语句的依存句法树,并标注核心词;
步骤S3、保留步骤S2中获得的所述依存句法树中的核心词,简化处理冗余词及其周边结构;
步骤S4、计算得到各个核心词的毗邻特征,将各个知识点的核心词对应的毗邻特征存存储形成知识库;
步骤S5、将用户输入的文本经依存句法树处理得到对应的分词结果;
步骤S6、对比获取的各个词语的毗邻特征和知识库中各个毗邻特征,如果匹配度大于第一阈值,则判断知识库中的毗邻特征所对应的词语是否与核心词的毗邻特征近似,如果是则输出解析结果,如果不是则提示知识库中的毗邻特征所对应的词语。
与现有技术相比,本发明具有如下有益效果:
1.使中文语境中的知识点能够被明确定义,以供精准解析。
2.知识点能够被高效且明确地储存,即,知识点不再是独立且模糊地储存,而是相对于特定语境、特定词语进行了具体的储存,由此提升知识点检索的精确度。
3.对用于描述特定语境下的知识点的知识树(毗邻特征)进行一系列的筛减处理,根据各个依存关系(例如COO、ATT)的语言学特征进行量身定制。
4.使中文语境中的知识点能够被精准解析,例如用户输入“茅台酒以大米做成酒曲”,解析***能够根据知识库中预存的关于“茅台酒”、“酒曲”等语境的知识点,对用户输入的文本进行知识纠错,告知“大米”应当被纠正为“小麦”。
5.知识库可实时动态维护,清晰可控,对于不合理的问题部分可直接定位并解决,不再像传统深度学习模型如同“黑箱子”一般不可解析。
6.使知识解析场景不再受中文语法/句法的多样性及复杂性所局限,只要保证知识库的资源足够优质且全面,就可极大限度地满足场景应用需求。
附图说明
图1为根据本发明的技术方案建立动态结构化知识库的流程图;
图2为根据本发明的技术方案计算毗邻特征的流程图;
图3为根据本发明的技术方案获取解析结果的示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明的技术方案做详细描述。
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
如图1为根据本发明的技术方案建立动态结构化知识库的流程图。中文语境中的知识点能够被明确定义,以供精准解析。知识点能够被高效且明确地储存,即,知识点不再是独立且模糊地储存,而是相对于特定语境、特定词语进行了具体的储存。具体地,本发明的一种基于依存句法树的知识解析***,包括:知识库模块和解析模块;其中知识库模块包括:
分词模块,根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系;
依存句法树生成模块,汇总涵盖目标知识点的语句,并利用依存句法模型得到所有语句的依存句法树,并标注核心词;
简化处理模块,保留依存句法树生成模块中获得的所述依存句法树中的核心词,简化处理冗余词及其周边结构;
计算模块,计算得到各个核心词的毗邻特征,将各个知识点的核心词对应的毗邻特征存存储形成知识库。
其中,解析模块包括:
句法树处理模块,将用户输入的文本经依存句法树处理得到对应的分词结果;
毗邻特征对比模块,对比获取的各个词语的毗邻特征和知识库中各个毗邻特征,如果匹配度大于第一阈值,则判断知识库中的毗邻特征所对应的词语是否与毗邻特征获取模块中核心词的毗邻特征近似,如果是则输出解析结果,如果不是则提示知识库中的毗邻特征所对应的词语。
根据本发明的一个方面,公开了一种基于依存句法树的知识解析方法,包括以下步骤:
步骤S1、根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系;
步骤S2、汇总涵盖目标知识点的语句,并利用依存句法模型得到所有语句的依存句法树,并标注核心词;
步骤S3、保留步骤S2中获得的所述依存句法树中的核心词,简化处理冗余词及其周边结构;
步骤S4、计算得到各个核心词的毗邻特征,将各个知识点的核心词对应的毗邻特征存存储形成知识库。
所述步骤S1中,各词之间的依存句法关系是定向的。每个句子至少存在一个根源词,对于除根源词之外的任意词,仅有一个父节点和至少一个子节点。
所述步骤S3中,所述简化处理包括:如果两个冗余词存在依存关系,则将这两个冗余词合并为一个新的冗余词;如果两个词的依存关系为并列关系,则共享这两个词各自的父节点和子节点。
在步骤S1中,需要首先准备已经预训练完毕的依存句法模型(DependencyParser)。该模型能够对自然语言语句进行分词处理并标明各成分之间的句法依存关系。细节如下:
给定由n个字符构成的语句S=S1S2S3…Sn,经过依存句法树处理之后,语句S变为由m个词构成的结构S=W1W2W3…Wm,并且获得各个词之间的依存句法关系,例如R(Wi,Wj)=SBV,代表Wi与Wj之间是SBV(主谓)关系。Wj是Wi的父节点,Wi是Wj的子节点。
具体地,在步骤S1中,各词之间的依存句法关系是定向的,即R(Wi,Wj)≠R(Wj,Wi)。每个句子必定存在一个根源词Wroot。对于除了根源词Wroot之外的任意词Wi,有且仅有一个词Wj与其存在R(Wi,Wj)的关系;即Wi仅有一个父节点。对于某个词Wj,可以有多个词(例如W1、W2、W3)与之存在诸如R(W1,Wj)、R(W2,Wj)、R(W3,Wj)的关系;即Wj可以有多个子节点。
具体地,在步骤S1中,将涵盖目标知识点的语句进行汇总,并利用依存句法模型得到所有语句的依存句法树,并将核心词进行标注。例如语句“中国的茅台酒使用优质的高粱作为原料”,我们可将能够构成知识点的核心词标注出来:茅台、酒、高粱、原料;非核心词也可被称为“冗余词”。
具体地,在步骤S1中,对获得的依存句法树进行一系列的筛减简化处理,保留核心词,将冗余词及其周边结构进行简化处理,形成针对各个知识点的依存句法结构,和规范化的知识树,并将其储存以供后续使用。简化处理手段包括:
如果两个冗余词xi,xj存在依存关系,且R(xi,xj)=ATT(这里的ATT代表“定中关系”,例如“红”与“苹果”就是定中关系),则可将xi,xj合并为一个新的冗余词,从而达到简化的目的。
如果两个词Wi,Wj的依存关系为R(Wi,Wj)=COO(这里的COO代表“并列关系”),那么Wi的父节点和子节点与Wj的父节点和子节点是可以共享的。
上述依存关系还可以是附录中的依存关系表所示的任意关系类型。
如图2为根据本发明的技术方案计算毗邻特征的流程图。具体地,在步骤S4中,计算得到各个核心词的毗邻特征,任意词Wi的毗邻特征Fi代表着Wi与其它各词语之间的关系;
Figure BDA0002693101030000061
其中,gij代表在规范化的知识树中,从Wi所在的节点到Wj所在的节点之间的路径;该路径既可以经过神经网络模型编码为高维度的向量,也可表达为具体的函数关系,从而可以对两个不同的路径的结构(各个节点之间的依存关系)及内容(路径上面各个核心词的内容)进行比较。为了简化处理,计算毗邻特征Fi可以仅考虑核心词,忽略冗余词。在某知识树中的某核心词Wi的毗邻特征计作Fi
在特定知识语句S(x)的知识树中的特定核心词Wi的毗邻特征记作Fi (x)将各个知识点的各个核心词的毗邻特征都储存起来,形成知识库,储存单元的结构为
Fi (x)→Wi
严格来说,Wi以及Fi (x)中的各个核心词既可以用高维向量的形式来表达,也可以用一系列近义词的集合来表达,从而确保能够处理近义词替换的情况。
在建立了知识库后,即可利用本发明的基于依存句法树的知识解析***对用户的输入进行解析,如图3所示为根据本发明的技术方案获取解析结果的示意图,其包括以下步骤:
步骤S5、将用户输入的文本经依存句法树处理得到对应的分词结果;
步骤S6、对比获取的各个词语的毗邻特征和知识库中各个毗邻特征,如果匹配度大于第一阈值,则判断知识库中的毗邻特征所对应的词语是否与核心词的毗邻特征近似,如果是则输出解析结果,如果不是则提示知识库中的毗邻特征所对应的词语。
具体地,在步骤S5中,给定用户输入的文本S(U)=S1S2S3...Sn,经过依存句法树处理之后可得依存句法树,对应的分词结果为S(U)=W1W2W3...Wm
具体地,在步骤S6中,获得各个词语的毗邻特征
Figure BDA0002693101030000071
例如针对用户文本中的核心词Wi (U),获取其在用户输入文本中的毗邻特征Fi (U)
具体地,在步骤S6中,将知识库里面各个毗邻特征Fa,Fb,Fc...与Fi (U)作对比,取匹配度最高的毗邻特征(例如Fj),如果该匹配度高于某个阈值(如第一阈值),则获取该毗邻特征在知识库中对应的词语Wj,则词语Wj应当与核心词Wi (U)高度近似,如若不够近似,说明用户输入的文本中的核心词Wi (U)与该知识库不相融,应当被标明并纠正,从而实现知识审核/纠错等一系列的知识解析操作。
匹配度的计算可以通过比较两个词的语义近似度。例如可以通过对比两个词的词向量,也可以事先定义近义词表,在近义词表内查询彼此是否为近义词。
优选地,还可以为毗邻特征中的核心词和其它词配置不同的权重从而计算得到的总分,将该总分作为解析结果输出。例如核心词相似配置为第一权重,冗余词配置为第二权重。如判断毗邻特征近似则输出值为1,不相似则输出值为0。将输出值与其对应的权重相乘,最后统计总体得分情况作为相似度结果。由于本发明实施例中的权重不同,因此如果核心词越相似则分数越高,提高了本***的解析精准度。
实施例一:
根据本发明的实施例一,可以通过事先构建动态结构化知识库再通过解析算法模块对用户的输入实现智能纠错和智能填充的效果。
构建动态结构化知识库:
假设一条知识语句为“爱因斯坦在1905年奇迹年提出了狭义相对论,并阐述了光电效应原理”,经过依存句法树的处理之后可以得到:
Figure BDA0002693101030000081
假设我们关注的知识点是“爱因斯坦在1905年提出光电效应原理”,那么我们需要将如下词语标注为核心词:“爱因斯坦”、“1905年”、“光电”、“效应”、“原理”。进行一系列的筛减简化处理可以得到规范化的知识树:
Figure BDA0002693101030000082
这里用“G_”开头的变量代表着核心词,用“t_”开头的变量代表着冗余词,具体的词表为:
{'G_0':['爱因斯坦'],'t_1':[”],'G_2':['1905年'],'t_4':[”],'G_12':['光电'],'G_13':['效应'],'G_14':['原理']}
为了便于展示,这里没有采用高维度向量的方式代表词语,而是采用了近义词集合的形式。
词“爱因斯坦”的毗邻特征实际上就是从“爱因斯坦”这个词所在的节点(即“G_0”)出发,分别到其它词的路径的汇总,如下为“爱因斯坦”的毗邻特征(记作
Figure BDA0002693101030000083
):
Figure BDA0002693101030000084
其中“f”和“b”分别代表正向(从子节点到父节点)和逆向(从父节点到子节点),举例来讲,从“G_0”到“G_13”的路径可从图中的索引“G_13”获取,即
[['G_0',['f','SBV'],'t_1'],
['t_1',['b','VOB'],'G_14'],
['G_14',['b','ATT'],'G_13']]
代表从“G_0”到“G_13”需要先正向走到某个冗余节点“t_1”,期间的依存关系为SBV,再从“t_1”逆向走到核心节点“G_14”,期间的依存关系为VOB,最后再逆向走到“G_13”,期间的依存关系为ATT。判断两个路径是否一致不仅要比较两路径各节点之间的依存关系是否一致,还要比较各节点的内容是否一致或足够近似。
重复以上步骤,采集海量的知识语句,每个知识语句可能对应不止一条知识点,按照前述步骤为每个知识点生成知识树,并得到知识树里各个节点Wi的毗邻特征
Figure BDA0002693101030000093
再将各个毗邻特征作为索引进行储存。
智能解析过程:
假设用户输入“在1995年,德国的物理学家爱因斯坦证明了光电效应原理”,则得到的依存句法树为:
Figure BDA0002693101030000091
获取各个词语的毗邻特征。遍历知识库里面储存的各个毗邻特征,判断各个词语的毗邻特征是否与知识库里某个预存的毗邻特征完全匹配,最终发现,“1995年”一词的毗邻特征与知识库中某个以“1905年”一词作为数值的毗邻特征
Figure BDA0002693101030000092
完全匹配。因此,“1995年”一词应
当与知识库中的G_2节点内容一致,也就是说,“1995年”一词只有被替换为“1905年”才能保证用户输入的语句不会与知识库发生冲突。
为了防止被误纠正,假如“1995年”一词的毗邻特征与知识库中另一个预存的毗邻特征也完全匹配,而且“1995年”一词与该毗邻特征对应的节点一致,那么之前所述与毗邻特征
Figure BDA0002693101030000101
冲突的情况就失效了。
又例如用户输入“茅台酒以大米做成酒曲”,解析***能够根据知识库中预存的关于“茅台酒”、“酒曲”等语境的知识点,对用户输入的文本进行知识纠错,告知“大米”应当被纠正为“小麦”。
实施例二:
根据利用本发明的解析***还可以实现知识智能填充。假如用户向本发明的***输入“在x,德国的物理学家爱因斯坦证明了光电效应原理”的形式,之后***只需针对x来进行知识库检索,从而实现“知识填充”的产品效果。用户输入“爱因斯坦获得了x年的诺贝尔y奖”,则***会告知x是“1921”,y是“物理学”。检索过程与实施例一中的相同。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
附录,依存关系表:
关系类型 Tag Description Example
主谓关系 SBV subject-verb 我送她一束花(我<--送)
动宾关系 VOB 直接宾语,verb-object 我送她一束花(送-->花)
间宾关系 IOB 间接宾语,indirect-object 我送她一束花(送-->她)
前置宾语 FOB 前置宾语,fronting-object 他什么书都读(书<--读)
兼语 DBL double 他请我吃饭(请-->我)
定中关系 ATT attribute 红苹果(红<--苹果)
状中结构 ADV adverbial 非常美丽(非常<--美丽)
动补结构 CMP complement 做完了作业(做-->完)
并列关系 COO coordinate 大山和大海(大山-->大海)
介宾关系 POB preposition-object 在贸易区内(在-->内)
左附加关系 LAD left adjunct 大山和大海(和<--大海)
右附加关系 RAD right adjunct 孩子们(孩子-->们)
独立结构 IS independent structure 两个单句在结构上彼此独立
标点 WP punctuation
核心关系 HED head 指整个句子的核心

Claims (10)

1.一种基于依存句法树的知识解析***,其特征在于,包括:知识库模块和解析模块;其中,知识库模块包括:
分词模块,根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系;
依存句法树生成模块,汇总涵盖目标知识点的语句,并利用依存句法模型得到所有语句的依存句法树,并标注核心词;
简化处理模块,保留依存句法树生成模块中获得的所述依存句法树中的核心词,简化处理冗余词及其周边结构;
计算模块,计算得到各个核心词的毗邻特征,将各个知识点的核心词对应的毗邻特征存储形成知识库;
其中,解析模块包括:
句法树处理模块,将用户输入的文本经依存句法树处理得到对应的分词结果;
毗邻特征对比模块,对比获取的各个词语的毗邻特征和知识库中各个毗邻特征,如果匹配度大于第一阈值,则判断知识库中的毗邻特征所对应的词语是否与毗邻特征获取模块中核心词的毗邻特征近似,如果是则输出解析结果,如果不是则提示知识库中的毗邻特征所对应的词语。
2.根据权利要求1所述的基于依存句法树的知识解析***,其特征在于:所述分词模块中,各词之间的依存句法关系是定向的。
3.根据权利要求1所述的基于依存句法树的知识解析***,其特征在于:所述分词模块中,每个句子至少存在一个根源词,对于除根源词之外的任意词,仅有一个父节点和至少一个子节点。
4.根据权利要求1所述的基于依存句法树的知识解析***,其特征在于:所述简化处理模块中,如果两个冗余词存在依存关系,则将这两个冗余词合并为一个新的冗余词;如果两个词的依存关系为并列关系,则共享这两个词各自的父节点和子节点。
5.一种基于依存句法树的知识解析方法,其特征在于,包括以下步骤:
步骤S1、根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系;
步骤S2、汇总涵盖目标知识点的语句,并利用依存句法模型得到所有语句的依存句法树,并标注核心词;
步骤S3、保留步骤S2中获得的所述依存句法树中的核心词,简化处理冗余词及其周边结构;
步骤S4、计算得到各个核心词的毗邻特征,将各个知识点的核心词对应的毗邻特征存储形成知识库;
步骤S5、将用户输入的文本经依存句法树处理得到对应的分词结果;
步骤S6、对比获取的各个词语的毗邻特征和知识库中各个毗邻特征,如果匹配度大于第一阈值,则判断知识库中的毗邻特征所对应的词语是否与核心词的毗邻特征近似,如果是则输出解析结果,如果不是则提示知识库中的毗邻特征所对应的词语。
6.根据权利要求5所述的基于依存句法树的知识解析方法,其特征在于:所述步骤S1中,各词之间的依存句法关系是定向的。
7.根据权利要求5所述的基于依存句法树的知识解析方法,其特征在于:所述步骤S1中,每个句子至少存在一个根源词,对于除根源词之外的任意词,仅有一个父节点和至少一个子节点。
8.根据权利要求5所述的基于依存句法树的知识解析方法,其特征在于:所述步骤S3中,所述简化处理包括:如果两个冗余词存在依存关系,则将这两个冗余词合并为一个新的冗余词;如果两个词的依存关系为并列关系,则共享这两个词各自的父节点和子节点。
9.一种智能学习内容推送***,其特征在于,包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,处理器执行如权利要求5-8中任意一项所述的方法。
10.一种计算机可读存储介质,其上存储计算机程序,其特征在于,该程序被处理器执行时实现如权利要求5-8中任意一项所述的方法。
CN202010997505.5A 2020-09-21 2020-09-21 基于依存句法树的知识解析***及方法 Active CN112651226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010997505.5A CN112651226B (zh) 2020-09-21 2020-09-21 基于依存句法树的知识解析***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010997505.5A CN112651226B (zh) 2020-09-21 2020-09-21 基于依存句法树的知识解析***及方法

Publications (2)

Publication Number Publication Date
CN112651226A CN112651226A (zh) 2021-04-13
CN112651226B true CN112651226B (zh) 2022-03-29

Family

ID=75347072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010997505.5A Active CN112651226B (zh) 2020-09-21 2020-09-21 基于依存句法树的知识解析***及方法

Country Status (1)

Country Link
CN (1) CN112651226B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282762B (zh) * 2021-05-27 2023-06-02 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN115270786B (zh) * 2022-09-27 2022-12-27 炫我信息技术(北京)有限公司 一种识别问句意图的方法、装置、设备和可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1628298A (zh) * 2002-05-28 2005-06-15 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索***中使用的文档中抽取知识的自学习***的方法
CN105528349A (zh) * 2014-09-29 2016-04-27 华为技术有限公司 知识库中问句解析的方法及设备
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109522418A (zh) * 2018-11-08 2019-03-26 杭州费尔斯通科技有限公司 一种半自动的知识图谱构建方法
CN109815230A (zh) * 2018-12-23 2019-05-28 国网浙江省电力有限公司 一种基于知识图谱的全业务数据中心数据审计方法
CN111177394A (zh) * 2020-01-03 2020-05-19 浙江大学 基于句法注意力神经网络的知识图谱关系数据分类方法
CN111194401A (zh) * 2017-10-10 2020-05-22 国际商业机器公司 意图识别的抽象和可移植性
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509860B2 (en) * 2016-02-10 2019-12-17 Weber State University Research Foundation Electronic message information retrieval system
US10325215B2 (en) * 2016-04-08 2019-06-18 Pearson Education, Inc. System and method for automatic content aggregation generation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1628298A (zh) * 2002-05-28 2005-06-15 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索***中使用的文档中抽取知识的自学习***的方法
CN105528349A (zh) * 2014-09-29 2016-04-27 华为技术有限公司 知识库中问句解析的方法及设备
CN111194401A (zh) * 2017-10-10 2020-05-22 国际商业机器公司 意图识别的抽象和可移植性
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109522418A (zh) * 2018-11-08 2019-03-26 杭州费尔斯通科技有限公司 一种半自动的知识图谱构建方法
CN109815230A (zh) * 2018-12-23 2019-05-28 国网浙江省电力有限公司 一种基于知识图谱的全业务数据中心数据审计方法
CN111177394A (zh) * 2020-01-03 2020-05-19 浙江大学 基于句法注意力神经网络的知识图谱关系数据分类方法
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Arabic Language Text Classification Using Dependency Syntax-Based Feature Selection;Yannis Haralambous et.al;《Eprint Arxiv》;20141231;第1-10页 *
数据驱动的依存句法分析方法研究;李正华等;《智能计算机与应用》;20131031;第3卷(第5期);第1-4页 *

Also Published As

Publication number Publication date
CN112651226A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
US11989519B2 (en) Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system
CN109299341B (zh) 一种基于字典学习的对抗跨模态检索方法和***
CN108319668B (zh) 生成文本摘要的方法及设备
US9176949B2 (en) Systems and methods for sentence comparison and sentence-based search
TWI512507B (zh) A method and apparatus for providing multi-granularity word segmentation results
CN111124487B (zh) 代码克隆检测方法、装置以及电子设备
CN110727839A (zh) 自然语言查询的语义解析
US10713429B2 (en) Joining web data with spreadsheet data using examples
Hasan et al. Recognizing Bangla grammar using predictive parser
US20150066836A1 (en) Methods and Systems of Four-Valued Simulation
CN112651226B (zh) 基于依存句法树的知识解析***及方法
CN109408628B (zh) 一种解析句子语义结构的方法及相关设备
CN109840255A (zh) 答复文本生成方法、装置、设备及存储介质
US11669691B2 (en) Information processing apparatus, information processing method, and computer readable recording medium
CN108519963B (zh) 一种将流程模型自动转换为多语言文本的方法
JP6614152B2 (ja) テキスト処理システム、テキスト処理方法、及び、コンピュータ・プログラム
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
CN114661616A (zh) 目标代码的生成方法及装置
Wu et al. Structured composition of semantic vectors
CN112446206A (zh) 一种菜谱标题的生成方法及装置
KR102649948B1 (ko) 계층 기반 단어 대체를 통한 텍스트 데이터 증강 장치 및 방법
CN112417871B (zh) 一种基于神经网络模型的文本实体间关系预测方法
CN113065351B (zh) 中心词提取模型生成方法及装置和中心词提取方法及装置
JP2008165473A (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
Aggarwal Question Answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant