CN115062609B - 一种汉语增强依存句法的方法及装置 - Google Patents
一种汉语增强依存句法的方法及装置 Download PDFInfo
- Publication number
- CN115062609B CN115062609B CN202210996111.7A CN202210996111A CN115062609B CN 115062609 B CN115062609 B CN 115062609B CN 202210996111 A CN202210996111 A CN 202210996111A CN 115062609 B CN115062609 B CN 115062609B
- Authority
- CN
- China
- Prior art keywords
- sentence
- dependency
- enhancement
- rules
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种汉语增强依存句法的方法及装置,涉及自然语言处理技术领域。包括:获取待增强的句子;获取句子的基础依存句法结果;基于构建好的依存增强规则集与句子的基础依存句法结果进行匹配,得到待增强的句子的增强依存句法结果。本发明具有逻辑清晰、效率高、比较全面的优点,妥善解决了现有依存句法分析无法充分表达实词间的语义关系,增加了进一步研究和应用的工作量的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是指一种汉语增强依存句法的方法及装置。
背景技术
句法分析是自然语言处理当中的关键技术之一,它是对输入文本的句子进行分析以得到其句法结构的过程。
依存句法分析是其中的一种表示形式,它用于分析输入句子的句法结构,将词语序列转化为树状的依存结构,来捕捉句子内部词语之间的修饰或搭配关系,描写句法结构。依存句法分析广泛应用于自然语言处理的多个领域,如搭配抽取、信息抽取等。
现有的依存句法分析在准确地反映句法关系、描述句法结构的同时,也带有一些浅层的语义表示。但依存句法所能表达的语义关系比较简单,一些实词之间的关系没有直接明确地表示出来,且缺乏对句法转换的抽象。如在面对一组句式转换的句子时,尽管实词之间的语义关系相同,但由于他们在句中所作成分的不同,使得依存标签不同。
现有的工作主要聚焦于英语增强依存句法的规范和***,在汉语中还未见相关研究。
发明内容
本发明针对现有依存句法分析无法充分表达实词间的语义关系的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种汉语增强依存句法的方法,该方法由电子设备实现,该方法包括:
S1、获取待增强的句子。
S2、获取句子的基础依存句法结果。
S3、基于构建好的依存增强规则集与句子的基础依存句法结果进行匹配,得到待增强的句子的增强依存句法结果。
可选地,S2中的获取句子的基础依存句法结果包括:
基于斯坦福依存句法框架,获取句子的基础依存句法结果。
可选地,S3中的依存增强规则集包括介词和连词的增强规则、并列项的增强规则、句式转换的增强规则、特殊句式的增强规则以及不确定句式的增强规则。
可选地,介词和连词的增强规则包括介词的增强规则以及连词的增强规则。
其中,介词的增强规则包括:获取句子中介词的依存标签,在介词的依存标签上添加介词提示,将依存标签与介词提示采用下划线连接。
连词的增强规则包括:获取句子中连词的依存标签,在连词的依存标签上添加连词提示,将依存标签与连词提示采用下划线连接。
可选地,并列项的增强规则包括:
获取句子中存在并列依存关系的多个词语。
获取多个词语中任一词语与句子中支配词或从属词间的依存关系。
对其他存在并列依存关系的词语与支配词或从属词增加依存关系的依存弧;其中,其他存在并列依存关系的词语包括存在并列依存关系的多个词语中除了所获取的词语外的其他词语。
可选地,句式转换的增强规则包括被动句的增强规则、把字句的增强规则、形容词修饰语语修饰语的增强规则。
其中,被动句的增强规则包括:获取句子中的谓语以及被动主语,对谓语以及被动主语增加标签为dobj的依存弧;
把字句的增强规则包括:获取句子中的动词以及由把字引导的宾语,对动词以及由把字引导的宾语增加标签为dobj的依存弧;
形容词修饰语的增强规则包括:获取句子中由形容词修饰的中心语以及动词,对由形容词修饰的中心语以及动词增加标签为nsubj的依存弧;
动词短语修饰语的增强规则包括:获取句子中由动词短语修饰的中心语以及动词,对由动词短语修饰的中心语以及动词增加标签为dobj的依存弧。
可选地,特殊句式的增强规则包括兼语句的增强规则、连动句的增强规则以及省略成分的增强规则。
其中,兼语句的增强规则包括:获取句子中的兼语以及兼语后的谓语,对兼语以及兼语后的谓语增加标签为nsubj的依存弧。
连动句的增强规则包括:获取句子中由两个及两个以上动词构成的谓语中的动词,对动词以及动词的主语增加标签为nsubj的依存弧。
省略成分的增强规则包括:获取句子中省略主语或宾语的小句,获取句子中小句的主语或宾语,对主语或宾语增加表示主语或宾语依存关系的依存弧。
可选地,不确定句式的增强规则包括:当需要添加或修改的依存关系不确定时,为依存关系增加UNC标记。
不确定句式的增强规则还包括:当为同一个词语添加的同一类依存关系存在两个及两个以上可能时,为依存关系增加ALT标记。
可选地,S3中的基于构建好的依存增强规则集与句子的基础依存句法结果进行匹配,得到待增强的句子的增强依存句法结果包括:
S31、将句子的基础依存句法结果与构建好的依存增强规则集中的所有增强规则进行匹配,获取成功匹配的增强规则,将成功匹配的增强规则作用于句子的基础依存句法结果上。
S32、重复上述步骤S31,直到不产生新的成功匹配的增强规则,输出待增强的句子的增强依存句法结果。
另一方面,本发明提供了一种汉语增强依存句法的装置,该装置应用于实现汉语增强依存句法的方法,该装置包括:
获取模块,用于获取待增强的句子。
基础结果获取模块,用于获取句子的基础依存句法结果。
输出模块,用于基于构建好的依存增强规则集与句子的基础依存句法结果进行匹配,得到待增强的句子的增强依存句法结果。
可选地,基础结果获取模块,进一步用于:
基于斯坦福依存句法框架,获取句子的基础依存句法结果。
可选地,依存增强规则集包括介词和连词的增强规则、并列项的增强规则、句式转换的增强规则、特殊句式的增强规则以及不确定句式的增强规则。
可选地,介词和连词的增强规则包括介词的增强规则以及连词的增强规则。
其中,介词的增强规则包括:获取句子中介词的依存标签,在介词的依存标签上添加介词提示,将依存标签与介词提示采用下划线连接。
连词的增强规则包括:获取句子中连词的依存标签,在连词的依存标签上添加连词提示,将依存标签与连词提示采用下划线连接。
可选地,并列项的增强规则包括:
获取句子中存在并列依存关系的多个词语。
获取多个词语中任一词语与句子中支配词或从属词间的依存关系。
对其他存在并列依存关系的词语与支配词或从属词增加依存关系的依存弧;其中,其他存在并列依存关系的词语包括存在并列依存关系的多个词语中除了所获取的词语外的其他词语。
可选地,句式转换的增强规则包括被动句的增强规则、把字句的增强规则、形容词修饰语语修饰语的增强规则。
其中,被动句的增强规则包括:获取句子中的谓语以及被动主语,对谓语以及被动主语增加标签为dobj的依存弧;
把字句的增强规则包括:获取句子中的动词以及由把字引导的宾语,对动词以及由把字引导的宾语增加标签为dobj的依存弧;
形容词修饰语的增强规则包括:获取句子中由形容词修饰的中心语以及动词,对由形容词修饰的中心语以及动词增加标签为nsubj的依存弧;
动词短语修饰语的增强规则包括:获取句子中由动词短语修饰的中心语以及动词,对由动词短语修饰的中心语以及动词增加标签为dobj的依存弧。
可选地,特殊句式的增强规则包括兼语句的增强规则、连动句的增强规则以及省略成分的增强规则。
其中,兼语句的增强规则包括:获取句子中的兼语以及兼语后的谓语,对兼语以及兼语后的谓语增加标签为nsubj的依存弧。
连动句的增强规则包括:获取句子中由两个及两个以上动词构成的谓语中的动词,对动词以及动词的主语增加标签为nsubj的依存弧。
省略成分的增强规则包括:获取句子中省略主语或宾语的小句,获取句子中小句的主语或宾语,对主语或宾语增加表示主语或宾语依存关系的依存弧。
可选地,不确定句式的增强规则包括:当需要添加或修改的依存关系不确定时,为依存关系增加UNC标记。
不确定句式的增强规则还包括:当为同一个词语添加的同一类依存关系存在两个及两个以上可能时,为依存关系增加ALT标记。
可选地,输出模块,进一步用于:
S31、将句子的基础依存句法结果与构建好的依存增强规则集中的所有增强规则进行匹配,获取成功匹配的增强规则,将成功匹配的增强规则作用于句子的基础依存句法结果上。
S32、重复上述步骤S31,直到不产生新的成功匹配的增强规则,输出待增强的句子的增强依存句法结果。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述汉语增强依存句法的方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述汉语增强依存句法的方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,包含一种汉语增强依存句法规范,其中,汉语增强依存句法规范包括:对汉语中的介词和连词的加强,将介词和连词添加在相关的依存弧上,进一步细化了依存关系;对汉语中并列项的传播,包括与并列结构相似的同位语、复合词,将并列项中的每一项都用依存弧连接到与之有语义关系的实词上;对汉语中句式转换的加强,包括被动句、“把”字句、形容词修饰语、动词短语修饰语,把意义相同但形式不同的句子用统一的依存关系整合起来;对汉语中特殊句式的加强,既包含对汉语特有的兼语句和连动句的加强,也包含对句子中省略成分的加强。本发明具有逻辑清晰、效率高、比较全面的优点,妥善解决了现有依存句法分析无法充分表达实词间的语义关系,增加了进一步研究和应用的工作量的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的汉语增强依存句法的方法流程示意图;
图2是本发明实施例提供的汉语增强依存句法的总体方法流程示意图;
图3是本发明实施例提供的汉语增强依存句法的装置框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种汉语增强依存句法的方法,该方法可以由电子设备实现。如图1所示的汉语增强依存句法的方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待增强的句子。
S2、获取句子的基础依存句法结果。
可选地,S2中的获取句子的基础依存句法结果包括:
基于斯坦福依存句法框架,获取句子的基础依存句法结果。
一种可行的实施方式中,斯坦福依存句法框架中提出了几种对句法结构进行面向语义修改的方案,包括折叠了介词、连词、关系从句所指信息的依存关系,以及增加了并列词的传播。
S3、基于构建好的依存增强规则集与句子的基础依存句法结果进行匹配,得到待增强的句子的增强依存句法结果。
可选地, S3中的依存增强规则集包括介词和连词的增强规则、并列项的增强规则、句式转换的增强规则、特殊句式的增强规则以及不确定句式的增强规则。
可选地,介词和连词的增强规则包括介词的增强规则以及连词的增强规则。
其中,介词的增强规则包括:获取句子中介词的依存标签,在介词的依存标签上添加介词提示,将依存标签与介词提示采用下划线连接。
一种可行的实施方式中,介词的加强即在表示介词的依存标签上添加与之相对应的介词提示,以下划线连接,汉语中还有一种特殊的介词,即框式介词,它是由前置词和后置词构成的使介词支配的成分夹在中间的一种介词类型,规范要求要把框式介词的两个部分作为一个整体都加在依存标签中。
连词的增强规则包括:获取句子中连词的依存标签,在连词的依存标签上添加连词提示,将依存标签与连词提示采用下划线连接。
一种可行的实施方式中,对连词的加强即在表示连词的依存标签上添加与之相对应的连词提示,以下划线连接,如果是多项并列,通常在最后一项和倒数第二项之间使用并列连词,而其他项间用标签符号分隔,表示这些并列项间的并列关系都由该并列连词决定。加强的依存句法规范要求把该并列连词迁移到整个并列结构中,把该并列连词添加到并列结构中每个conj标签上。
可选地,并列项的增强规则包括:
获取句子中存在并列依存关系的多个词语。
获取多个词语中任一词语与句子中支配词或从属词间的依存关系。
对其他存在并列依存关系的词语与支配词或从属词增加依存关系的依存弧。
其中,其他存在并列依存关系的词语包括存在并列依存关系的多个词语中除了所获取的词语外的其他词语。
一种可行的实施方式中,对并列项的加强即通过添加依存弧的方式,将并列项中的每一项都用依存弧连接到与之有语义关系的实词上。使句中存在并列依存关系的词语共享与句子其他成分的依存关系,处于依存树的同一层。
具体地,主语、谓语、宾语、时间地点状语等成分在句中都可能由并列结构来承担,规范要求将并列结构中的其他项与支配词或从属词间的依存关系也表示出来,同样的,偏正短语中,并列修饰语或中心语也要传播支配词或从属词。
进一步地,对并列项的加强还包括与并列结构相似的同位语、复合词的加强,由于同位语所指代内容相同,在句中承担的句子成分也相同,因此,可以将其看成是一种特殊的并列形式,需要将句中实词与同位语后一部分之间的依存关系,通过增加弧的方式添加在同位语的前一部分上。
可选地,句式转换的增强规则包括被动句的增强规则、把字句的增强规则、形容词修饰语语修饰语的增强规则。
一种可行的实施方式中,对汉语中句式转换的加强,包括被动句、“把”字句、形容词修饰语、动词短语修饰语,把意义相同但形式不同的句子用统一的依存关系整合起来。
其中,被动句的增强规则包括:获取句子中的谓语以及被动主语,对谓语以及被动主语增加标签为dobj的依存弧,通过增加标签为dobj的依存弧的方式,将句子中的被动主语转换为句子中事件的受事。
一种可行的实施方式中,对被动句式的转换,即通过增加标签为dobj的依存弧的方式,将被动主语转换为事件的受事(宾语),使其与主动句式统一。
具体地,对被动句式的转换可以是,被动主语(一般是意义上的受事)通常用依存标签为nsubjpass的依存弧与谓语连接,意义上的施事主语仍用表示主语的nsubj标签与谓语连接,而在被动句转换后的主动句中,施事主语在主动句中形式上做主语,被动主语通常作为主动句中的宾语。规范要求采用更为常用的主动句中的依存关系作为标准,添加一条弧从句中的谓语指向被动主语,依存标签为dobj。
此外,在修饰成分是被动短语的偏正短语中,依存弧从中心语指向被动短语中动词,依存标签为acl。在语义上,被动短语的中心语通常是被动短语中动词的受事,在转换后的主动句中,中心语是该动词的宾语。因此,在加强的依存句法中,添加一条依存弧从被动短语的动词指向中心语,其依存标签为dobj。
把字句的增强规则包括:获取句子中的动词以及由把字引导的宾语,对动词以及由把字引导的宾语增加标签为dobj的依存弧,通过增加标签为dobj的依存弧的方式,将句子中事件的受事还原到动词宾语的位置。
一种可行的实施方式中,对“把”字句的转换,即通过增加标签为dobj的依存弧的方式,还原事件的受事(宾语)到原动词宾语的位置。
进一步地,对“把”字句的转换可以是,“把”是一个介词,它将原来充当动词宾语的受事成分提到动词之前,因此,“把”字句可以通过句式转换将“把”引导的宾语还原到动词宾语的位置,即增添一条依存弧从该动词指向“把”引导的宾语,依存标签为dobj。
形容词修饰语的增强规则包括:获取句子中由形容词修饰的中心语以及动词,对由形容词修饰的中心语以及动词增加标签为nsubj的依存弧,通过增加标签为nsubj的依存弧的方式,表达句子中心语与动词之间的主谓宾关系。
一种可行的实施方式中,对形容词修饰语的转换可以是,在偏正短语中,形容词短语用来修饰名词中心语,那么这个偏正短语可以转换为以该中心语为主语、以该形容词为谓语的主谓短语,因此可以通过增加标签为nsubj的依存弧的方式,表达出原句中心语与动词之间的主谓宾关系。
动词短语修饰语的增强规则包括:获取句子中由动词短语修饰的中心语以及动词,对由动词短语修饰的中心语以及动词增加标签为dobj的依存弧,通过增加标签为dobj的依存弧的方式,表达句子中心语与动词之间的主谓宾关系。
一种可行的实施方式中,对动词短语修饰语的转换可以是,一个动词短语来修饰名词中心语,如果在动词短语中,该动词不含宾语的话,那么中心语可能为该动词的受事,因此可以通过增加标签为dobj的依存弧的方式,表达出原句中心语与动词之间的主谓宾关系。
可选地,特殊句式的增强规则包括兼语句的增强规则、连动句的增强规则以及省略成分的增强规则。
其中,兼语句的增强规则包括:获取句子中的兼语以及兼语后的谓语,对兼语以及兼语后的谓语增加标签为nsubj的依存弧。
一种可行的实施方式中,兼语句是由兼语短语作谓语的句子,其谓语中第一个动词的宾语也是后一谓词的主语,规范要求为兼语和位于其后的谓语增加标签为nsubj的依存弧。
连动句的增强规则包括:获取句子中由两个及两个以上动词构成的谓语中的动词,对动词以及动词的主语增加标签为nsubj的依存弧。
一种可行的实施方式中,连动句是现代汉语里一种特殊的句法结构,指的是谓语由两个或两个以上动词构成,在动词短语中间没有停顿,也没有关联词语,两个动词短语共用一个主语的句子,规范要求为由两个及以上动词构成的谓语中的动词与其主语间增加标签为nsubj的依存弧。
省略成分的增强规则包括:获取句子中省略主语或宾语的小句,获取句子中小句的主语或宾语,对主语或宾语增加表示主语或宾语依存关系的依存弧。
一种可行的实施方式中,对省略句的加强,包括省略主语和宾语的情况。
含有动词性状语的句子中,存在状语中的动词和谓词共用一个主语的现象,由于汉语中的经济原则,那么状语或主句就可能省略主语,规范要求为省略主语的小句在句子中寻找其可能的主语,为其增加标签为nsubj的依存弧。
在复句中除了可能省略小句主语以外,当几个小句的宾语相同时,也可能会省略小句中的宾语,规范要求为省略宾语的小句在句子中寻找其可能的宾语,为其增加标签为dobj的依存弧。
可选地,不确定句式的增强规则包括:当需要添加或修改的依存关系不确定时,为依存关系增加UNC标记。
不确定句式的增强规则还包括:当为同一个词语添加的同一类依存关系存在两个及两个以上可能时,为依存关系增加ALT=X的标记,其中,X表示词语在句子中的位置。
一种可行的实施方式中,不确定句式的增强采用UNC和ALT标记。当需要添加或修改的依存关系不确定时,为其增加UNC标记;当为同一个词语添加的同一类依存关系存在两个及以上可能时,为其增加ALT=X的标记,其中X表示词语在句子中的位置。
可选地,S3中的基于构建好的依存增强规则集与句子的基础依存句法结果进行匹配,得到待增强的句子的增强依存句法结果包括:
S31、将句子的基础依存句法结果与构建好的依存增强规则集中的所有增强规则进行匹配,获取成功匹配的增强规则,将成功匹配的增强规则作用于句子的基础依存句法结果上。
S32、重复上述步骤S31,直到不产生新的成功匹配的增强规则,输出待增强的句子的增强依存句法结果。
一种可行的实施方式中,如图2所示,因单次匹配增加或修改依存弧后可能产生新的匹配,因此需要与规则集进行若干次匹配直到不存在新的匹配项为止。
增强依存句法任务旨在于现有依存句法规范的基础上通过修改和增加依存弧的方法,从利于搭配抽取和自然语言理解的角度重新构建依存图,将实词之间的语义关系显性地展示出来,并统一句式转换中的依存句法关系,以便于进一步的研究和应用。
本发明实施例中,包含一种汉语增强依存句法规范,其中,汉语增强依存句法规范包括:对汉语中的介词和连词的加强,将介词和连词添加在相关的依存弧上,进一步细化了依存关系;对汉语中并列项的传播,包括与并列结构相似的同位语、复合词,将并列项中的每一项都用依存弧连接到与之有语义关系的实词上;对汉语中句式转换的加强,包括被动句、“把”字句、形容词修饰语、动词短语修饰语,把意义相同但形式不同的句子用统一的依存关系整合起来;对汉语中特殊句式的加强,既包含对汉语特有的兼语句和连动句的加强,也包含对句子中省略成分的加强。本发明具有逻辑清晰、效率高、比较全面的优点,妥善解决了现有依存句法分析无法充分表达实词间的语义关系,增加了进一步研究和应用的工作量的问题。
如图3所示,本发明实施例提供了一种汉语增强依存句法的装置300,该装置300应用于实现汉语增强依存句法的方法,该装置300包括:
获取模块310,用于获取待增强的句子。
基础结果获取模块320,用于获取句子的基础依存句法结果。
输出模块330,用于基于构建好的依存增强规则集与句子的基础依存句法结果进行匹配,得到待增强的句子的增强依存句法结果。
可选地,基础结果获取模块320,进一步用于:
基于斯坦福依存句法框架,获取句子的基础依存句法结果。
可选地,依存增强规则集包括介词和连词的增强规则、并列项的增强规则、句式转换的增强规则、特殊句式的增强规则以及不确定句式的增强规则。
可选地,介词和连词的增强规则包括介词的增强规则以及连词的增强规则。
其中,介词的增强规则包括:获取句子中介词的依存标签,在介词的依存标签上添加介词提示,将依存标签与介词提示采用下划线连接。
连词的增强规则包括:获取句子中连词的依存标签,在连词的依存标签上添加连词提示,将依存标签与连词提示采用下划线连接。
可选地,并列项的增强规则包括:
获取句子中存在并列依存关系的多个词语。
获取多个词语中任一词语与句子中支配词或从属词间的依存关系。
对其他存在并列依存关系的词语与支配词或从属词增加依存关系的依存弧;其中,其他存在并列依存关系的词语包括存在并列依存关系的多个词语中除了所获取的词语外的其他词语。
可选地,句式转换的增强规则包括被动句的增强规则、把字句的增强规则、形容词修饰语语修饰语的增强规则。
其中,被动句的增强规则包括:获取句子中的谓语以及被动主语,对谓语以及被动主语增加标签为dobj的依存弧;
把字句的增强规则包括:获取句子中的动词以及由把字引导的宾语,对动词以及由把字引导的宾语增加标签为dobj的依存弧;
形容词修饰语的增强规则包括:获取句子中由形容词修饰的中心语以及动词,对由形容词修饰的中心语以及动词增加标签为nsubj的依存弧;
动词短语修饰语的增强规则包括:获取句子中由动词短语修饰的中心语以及动词,对由动词短语修饰的中心语以及动词增加标签为dobj的依存弧。
可选地,特殊句式的增强规则包括兼语句的增强规则、连动句的增强规则以及省略成分的增强规则。
其中,兼语句的增强规则包括:获取句子中的兼语以及兼语后的谓语,对兼语以及兼语后的谓语增加标签为nsubj的依存弧。
连动句的增强规则包括:获取句子中由两个及两个以上动词构成的谓语中的动词,对动词以及动词的主语增加标签为nsubj的依存弧。
省略成分的增强规则包括:获取句子中省略主语或宾语的小句,获取句子中小句的主语或宾语,对主语或宾语增加表示主语或宾语依存关系的依存弧。
可选地,不确定句式的增强规则包括:当需要添加或修改的依存关系不确定时,为依存关系增加UNC标记。
不确定句式的增强规则还包括:当为同一个词语添加的同一类依存关系存在两个及两个以上可能时,为依存关系增加ALT标记。
可选地,输出模块330,进一步用于:
S31、将句子的基础依存句法结果与构建好的依存增强规则集中的所有增强规则进行匹配,获取成功匹配的增强规则,将成功匹配的增强规则作用于句子的基础依存句法结果上。
S32、重复上述步骤S31,直到不产生新的成功匹配的增强规则,输出待增强的句子的增强依存句法结果。
本发明实施例中,包含一种汉语增强依存句法规范,其中,汉语增强依存句法规范包括:对汉语中的介词和连词的加强,将介词和连词添加在相关的依存弧上,进一步细化了依存关系;对汉语中并列项的传播,包括与并列结构相似的同位语、复合词,将并列项中的每一项都用依存弧连接到与之有语义关系的实词上;对汉语中句式转换的加强,包括被动句、“把”字句、形容词修饰语、动词短语修饰语,把意义相同但形式不同的句子用统一的依存关系整合起来;对汉语中特殊句式的加强,既包含对汉语特有的兼语句和连动句的加强,也包含对句子中省略成分的加强。本发明具有逻辑清晰、效率高、比较全面的优点,妥善解决了现有依存句法分析无法充分表达实词间的语义关系,增加了进一步研究和应用的工作量的问题。
图4是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,存储器402中存储有至少一条指令,至少一条指令由处理器401加载并执行以实现下述汉语增强依存句法的方法:
S1、获取待增强的句子。
S2、获取句子的基础依存句法结果。
S3、基于构建好的依存增强规则集与句子的基础依存句法结果进行匹配,得到待增强的句子的增强依存句法结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述汉语增强依存句法的方法。
例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种汉语增强依存句法的方法,其特征在于,所述方法包括:
S1、获取待增强的句子;
S2、获取所述句子的基础依存句法结果;
S3、基于构建好的依存增强规则集与所述句子的基础依存句法结果进行匹配,得到所述待增强的句子的增强依存句法结果;
所述S3中的依存增强规则集包括介词和连词的增强规则、并列项的增强规则、句式转换的增强规则、特殊句式的增强规则以及不确定句式的增强规则;
所述句式转换的增强规则包括被动句的增强规则、把字句的增强规则、形容词修饰语的增强规则以及动词短语修饰语的增强规则;
其中,所述被动句的增强规则包括:获取句子中的谓语以及被动主语,对所述谓语以及被动主语增加标签为dobj的依存弧;
所述被动句的增强规则还包括:获取句子中被动短语的动词以及中心语,对所述被动短语的动词以及中心语增加标签为dobj的依存弧;
所述把字句的增强规则包括:获取句子中的动词以及由把字引导的宾语,对所述动词以及由把字引导的宾语增加标签为dobj的依存弧;
所述形容词修饰语的增强规则包括:获取句子中由形容词修饰的中心语以及动词,对所述由形容词修饰的中心语以及动词增加标签为nsubj的依存弧;
所述动词短语修饰语的增强规则包括:获取句子中由动词短语修饰的中心语以及动词,对所述由动词短语修饰的中心语以及动词增加标签为dobj的依存弧。
2.根据权利要求1所述的方法,其特征在于,所述S2中的获取所述句子的基础依存句法结果包括:
基于斯坦福依存句法框架,获取所述句子的基础依存句法结果。
3.根据权利要求1所述的方法,其特征在于,所述介词和连词的增强规则包括介词的增强规则以及连词的增强规则;
其中,所述介词的增强规则包括:获取句子中介词的依存标签,在所述介词的依存标签上添加介词提示,将所述依存标签与所述介词提示采用下划线连接;
所述连词的增强规则包括:获取句子中连词的依存标签,在所述连词的依存标签上添加连词提示,将所述依存标签与所述连词提示采用下划线连接。
4.根据权利要求1所述的方法,其特征在于,所述并列项的增强规则包括:
获取句子中存在并列依存关系的多个词语;
获取所述多个词语中任一词语与句子中支配词或从属词间的依存关系;
对其他存在并列依存关系的词语与所述支配词或从属词增加所述依存关系的依存弧;其中,所述其他存在并列依存关系的词语包括存在并列依存关系的多个词语中除了所获取的词语外的其他词语。
5.根据权利要求1所述的方法,其特征在于,所述特殊句式的增强规则包括兼语句的增强规则、连动句的增强规则以及省略成分的增强规则;
其中,所述兼语句的增强规则包括:获取句子中的兼语以及兼语后的谓语,对所述兼语以及兼语后的谓语增加标签为nsubj的依存弧;
所述连动句的增强规则包括:获取句子中由两个及两个以上动词构成的谓语中的动词,对所述动词以及所述动词的主语增加标签为nsubj的依存弧;
所述省略成分的增强规则包括:获取句子中省略主语或宾语的小句,获取句子中所述小句的主语或宾语,对所述主语或宾语增加表示主语或宾语依存关系的依存弧。
6.根据权利要求1所述的方法,其特征在于,所述不确定句式的增强规则包括:当需要添加或修改的依存关系不确定时,为所述依存关系增加UNC标记;
所述不确定句式的增强规则还包括:当为同一个词语添加的同一类依存关系存在两个及两个以上可能时,为所述依存关系增加ALT标记。
7.根据权利要求1所述的方法,其特征在于,所述S3中的基于构建好的依存增强规则集与所述句子的基础依存句法结果进行匹配,得到所述待增强的句子的增强依存句法结果包括:
S31、将所述句子的基础依存句法结果与构建好的依存增强规则集中的所有增强规则进行匹配,获取成功匹配的增强规则,将所述成功匹配的增强规则作用于所述句子的基础依存句法结果上;
S32、重复上述步骤S31,直到不产生新的成功匹配的增强规则,输出所述待增强的句子的增强依存句法结果。
8.一 种汉语增强依存句法的装置,其特征在于,所述装置包括:
获取模块,用于获取待增强的句子;
基础结果获取模块,用于获取所述句子的基础依存句法结果;
输出模块,用于基于构建好的依存增强规则集与所述句子的基础依存句法结果进行匹配,得到所述待增强的句子的增强依存句法结果;
所述依存增强规则集包括介词和连词的增强规则、并列项的增强规则、句式转换的增强规则、特殊句式的增强规则以及不确定句式的增强规则;
所述句式转换的增强规则包括被动句的增强规则、把字句的增强规则、形容词修饰语的增强规则以及动词短语修饰语的增强规则;
其中,所述被动句的增强规则包括:获取句子中的谓语以及被动主语,对所述谓语以及被动主语增加标签为dobj的依存弧;
所述被动句的增强规则还包括:获取句子中被动短语的动词以及中心语,对所述被动短语的动词以及中心语增加标签为dobj的依存弧;
所述把字句的增强规则包括:获取句子中的动词以及由把字引导的宾语,对所述动词以及由把字引导的宾语增加标签为dobj的依存弧;
所述形容词修饰语的增强规则包括:获取句子中由形容词修饰的中心语以及动词,对所述由形容词修饰的中心语以及动词增加标签为nsubj的依存弧;
所述动词短语修饰语的增强规则包括:获取句子中由动词短语修饰的中心语以及动词,对所述由动词短语修饰的中心语以及动词增加标签为dobj的依存弧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210996111.7A CN115062609B (zh) | 2022-08-19 | 2022-08-19 | 一种汉语增强依存句法的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210996111.7A CN115062609B (zh) | 2022-08-19 | 2022-08-19 | 一种汉语增强依存句法的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115062609A CN115062609A (zh) | 2022-09-16 |
CN115062609B true CN115062609B (zh) | 2022-12-09 |
Family
ID=83208260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210996111.7A Active CN115062609B (zh) | 2022-08-19 | 2022-08-19 | 一种汉语增强依存句法的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062609B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292549B (zh) * | 2022-10-09 | 2022-12-20 | 北京语言大学 | 一种基于规则的树库自动转换方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708800A (zh) * | 2016-11-22 | 2017-05-24 | 彭炜明 | 一种基于句本位语法构建汉语树库的形式化方案 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN112183059A (zh) * | 2020-09-24 | 2021-01-05 | 万齐智 | 一种中文结构化事件抽取方法 |
CN114742054A (zh) * | 2022-03-18 | 2022-07-12 | 南京航空航天大学 | 一种面向开放领域的混合式信息抽取方法与*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7596485B2 (en) * | 2004-06-30 | 2009-09-29 | Microsoft Corporation | Module for creating a language neutral syntax representation using a language particular syntax tree |
-
2022
- 2022-08-19 CN CN202210996111.7A patent/CN115062609B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708800A (zh) * | 2016-11-22 | 2017-05-24 | 彭炜明 | 一种基于句本位语法构建汉语树库的形式化方案 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN112183059A (zh) * | 2020-09-24 | 2021-01-05 | 万齐智 | 一种中文结构化事件抽取方法 |
CN114742054A (zh) * | 2022-03-18 | 2022-07-12 | 南京航空航天大学 | 一种面向开放领域的混合式信息抽取方法与*** |
Also Published As
Publication number | Publication date |
---|---|
CN115062609A (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Padró et al. | Freeling 3.0: Towards wider multilinguality | |
US6778949B2 (en) | Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures | |
Collard et al. | An XML-based lightweight C++ fact extractor | |
US8417512B2 (en) | Method, used by computers, for developing an ontology from a text in natural language | |
Al-Emran et al. | Parsing modern standard Arabic using Treebank resources | |
Shinde et al. | Nlp based object oriented analysis and design from requirement specification | |
CN112835927A (zh) | 一种结构化查询语句的生成方法、装置和设备 | |
Hämäläinen et al. | Advances in synchronized XML-MediaWiki dictionary development in the context of endangered Uralic languages | |
CN113609838A (zh) | 文档信息抽取及图谱化方法和*** | |
CN115062609B (zh) | 一种汉语增强依存句法的方法及装置 | |
CN112269884B (zh) | 信息抽取方法、装置、设备及存储介质 | |
Bais et al. | A model of a generic natural language interface for querying database | |
US9189475B2 (en) | Indexing mechanism (nth phrasal index) for advanced leveraging for translation | |
Copestake | Robust minimal recursion semantics | |
Attia et al. | A compact Arabic lexical semantics language resource based on the theory of semantic fields | |
JP4007413B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Maranduc | A Multiform Balanced Dependency Treebank for Romanian | |
Murthy et al. | A New Approach to Tagging in Indian Languages. | |
JP2007164462A (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
JP4039282B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Karkaletsis et al. | Populating ontologies in biomedicine and presenting their content using multilingual generation | |
Alrehaili et al. | Discovering Qur’anic Knowledge through AQD: Arabic Qur’anic Database, a Multiple Resources Annotation-level Search | |
US20230342544A1 (en) | Semantic parsing for short text | |
JP3058511B2 (ja) | 中国語文解析方法および中国語文解析装置 | |
Mefteh et al. | From language-independent requirements to code based on a semantic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Yang Liner Inventor after: Yu Jingsi Inventor after: Shi Jialu Inventor after: Xiao Dan Inventor after: Yang Erhong Inventor before: Yu Jingsi Inventor before: Shi Jialu Inventor before: Yang Liner Inventor before: Xiao Dan Inventor before: Yang Erhong |
|
GR01 | Patent grant | ||
GR01 | Patent grant |