CN109165386A - 一种中文零代词消解方法及*** - Google Patents
一种中文零代词消解方法及*** Download PDFInfo
- Publication number
- CN109165386A CN109165386A CN201811000982.9A CN201811000982A CN109165386A CN 109165386 A CN109165386 A CN 109165386A CN 201811000982 A CN201811000982 A CN 201811000982A CN 109165386 A CN109165386 A CN 109165386A
- Authority
- CN
- China
- Prior art keywords
- feature
- candidate
- zero pronoun
- target
- pronoun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000029087 digestion Effects 0.000 claims 8
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 7
- 239000000047 product Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 101100260702 Mus musculus Tinagl1 gene Proteins 0.000 description 2
- 101150088826 arg1 gene Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文零代词消解方法及***,所述方法包括:通过对目标语料进行预处理,获取零代词标记;对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;根据所有目标零代词及候选先行语获得表述对集合;获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;根据排序结果得到对应的零代词消解结果。本发明利用结合句法分析的预设优化规则,实现零代词的准确识别,通过使用深度学习的方法,使得零代词消解得以完成。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种中文零代词消解方法及***。
背景技术
零代词消解是代词消解中针对零指代现象的一类特殊的消解,广泛存在于自然语言文本中,尤其是在中文中。在篇章中,用户能够根据上下文关系推断出的部分可以省略,该省略的部分在句子中一般承担相应的句法成分,并且回指前文中的某个语言学单位,用零代词表示。零代词消解就是恢复零代词指代前文语言学单位的过程,有时也被称为省略恢复。
零代词消解与显性代词消解相比,最大的问题在于缺少显性的代词表示,因此比显性代词消解更具难度和挑战。零代词消解一般划分成识别和消解两个子任务。识别子任务目的是识别出省略句中零代词存在的位置,消解子任务是为识别的零代词选择先行语。目前,许多工作都是围绕消解子任务展开的。
现有的零代词识别的准确率还很低,因此研究零代词消解问题时一般采用标准零代词识别。零代词识别和消解算法往往依赖于句法分析,自动句法分析的准确率并不高,由此也导致零代词识别和消解的准确率很难达到应用的标准。
发明内容
为了解决上述技术问题,本发明提出了一种中文零代词消解方法及***。
本发明是以如下技术方案实现的:
第一方面提供了一种中文零代词消解方法,包括:
通过对目标语料进行预处理,获取候选零代词标记;
对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;
根据所有目标零代词及候选先行语获得表述对集合;
获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;
根据排序结果得到对应的零代词消解结果。
进一步地,所述通过对目标语料进行预处理,获取候选零代词标记,包括:
根据数据集划分方法将目标数据集进行划分,得到零代词在训练集、测试集、验证集上的标记。
进一步地,所述对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;包括:
将候选零代词上下文的词向量作为输入,利用双向循环神经网络获得上下文语义特征;
将上下文语义特征输入l ogi st i c层,得到目标语料候选零代词指代关系的概率;
结合预设优化规则对指代关系概率进行优化,得到概率优化结果;
根据概率优化结果获得目标零代词。
进一步地,所述根据所有目标零代词及候选先行语获得表述对集合;包括:
根据上下文分析识别出候选先行语;
根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合;所有的目标零代词具有对应的目标零代词集合;
将目标零代词集合与候选先行语集合做笛卡尔积运算,构建出表述对集合;
根据句法分析特征和词向量特征,结合长短期记忆网络LSTMa和LSTMb,提取出表述对特征;所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。
优选地,所述句法分析特征包括短语结构句法分析特征和依存句法分析特征;
所述短语结构句法分析特征包括候选先行语和零代词的距离特征,以及在语法树上的位置关系;所述依存句法分析特征包括零代词与候选先行语的关系特征;
所述词向量特征包括本身词向量特征和上下文词向量特征;
所述本身词向量特征为构成先行语的词语的词向量特征;所述上下文词向量特征是由固定大小的窗口内上下文的词向量组合得到的特征。
第二方面提供了一种中文零代词消解***,包括:
预处理模块,用于通过对目标语料进行预处理,获取候选零代词标记;
零代词识别模块,用于对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;
表述对集合获取模块,用于根据所有目标零代词及候选先行语获得表述对集合;
指代关系概率获取模块,用于获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;
零代词消解模块,用于根据排序结果得到对应的零代词消解结果。
进一步地,所述预处理模块包括:
零代词标记单元,用于根据数据集划分方法将目标数据集进行划分,得到零代词在训练集、测试集、验证集上的标记。
进一步地,所述零代词识别模块包括:
上下文语义特征获取单元,用于将候选零代词上下文的词向量作为输入,利用双向循环神经网络获得上下文语义特征;
指代词识别单元,用于将上下文语义特征输入logistic层,得到目标语料候选零代词指代词的概率;
概率优化结果获取单元,用于结合预设优化规则对指代关系概率进行优化,得到概率优化结果;
目标零代词获取单元,用于根据概率优化结果获得目标零代词。
进一步地,所述表述对集合获取模块包括:
候选先行语识别单元,用于根据上下文分析识别出候选先行语;
对应集合获取单元,用于根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合;所有的目标零代词具有对应的目标零代词集合;
表述对集合构建单元,用于将目标零代词集合与候选先行语集合做笛卡尔积运算,构建出表述对集合;
表述对特征提取单元,用于根据句法分析特征和词向量特征,结合长短期记忆网络LSTMa和LSTMb,提取出表述对特征;所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。
优选地,所述句法分析特征包括短语结构句法分析特征和依存句法分析特征;
所述短语结构句法分析特征包括候选先行语和零代词的距离特征,以及在语法树上的位置关系;所述依存句法分析特征包括零代词与候选先行语的关系特征;
所述词向量特征包括本身词向量特征和上下文词向量特征;
所述本身词向量特征为构成先行语的词语的词向量特征;所述上下文词向量特征是由固定大小的窗口内上下文的词向量组合得到的特征。
本发明根据目标零代词及候选先行语获得表述对集合;进一步获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;然后根据排序结果得到对应的零代词消解结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是实施例一提供的中文零代词消解方法流程图;
图2是实施例一提供的所述对候选零代词进行位置识别,位置识别的结果结合预设优化规则,得到目标零代词的流程图;
图3是实施例一提供的所述根据所有目标零代词及候选先行语获得表述对集合的的流程图;
图4是零代词消解模型示意图;
图5是实施例一提供的中文零代词消解***框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一:
本实施例提供了一种中文零代词消解方法,其中,所述零代词消解其实包含了零代词识别和零代词消解两个过程;如图1所示,包括:
S101.通过对目标语料进行预处理,获取候选零代词标记;
进一步地,所述通过对目标语料进行预处理,获取候选零代词标记,包括:
根据数据集划分方法将目标数据集进行划分,得到零代词在训练集、测试集、验证集上的标记。
具体地,所述目标数据集为OntoNotes5.0数据集,根据CoNLL-2012Share Task共指消解评测任务的数据集划分方法,对OntoNote5.0进行划分;其中,OntoNotes5.0数据集本身含有零代词标记信息,而CoNLL-2012提供了在该语料库上的训练、验证、测试三部分的数据集划分以及对语料文档的词性标注、句法分析等基本自然语言处理结果的黄金标注,因而使用该数据集作为本发明的实验数据集。
说明的是,对于由词语w1,w2,…,wN组成的句子S,任意两个相邻词语之间都可能具有零代词,包括第一个词语w1前和最后一个词语wN后,这些可能具有零代词的位置依次记为g0,g1,…,gN,gi表示在wi和wi+1之间的候选零代词。
S102.对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;
具体地,零代词识别就是找到句子中具有指代关系零代词出现的位置,对于由词语组成的句子,在无任何先验知识的前提下,任意两个相邻词语之间都可能具有零代词(包括第一个词语前和最后一个词语后)。将这些可能具有零代词的位置作为候选零代词,训练双向循环神经网络来判别这些候选零代词是正确零代词位置的概率,并选出最可能存在零代词的位置。
进一步地,所述对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;如图2所示,包括:
S1021.将候选零代词上下文的词向量作为输入,利用双向循环神经网络获得上下文语义特征;
说明的是,所述双向循环神经网络具有隐含层,其正向RNNp从句子的第一个词x1一直算到xN,它的隐含层输出表示,候选零代词由g1,g2,…,gN的上文特征表示,而g0的上文特征由RNNp的初始隐含状态表示;同理表示g0,g1,…,gN的下文特征,组合起来即是上下文特征;
S1022.将上下文语义特征输入logistic层,得到目标语料候选零代词指代关系的概率;
详细地,本文使用的logistic层包括一个logistic隐含层和logistic输出层;将上下文特征再依次输入到隐含层和输出层中,得到整个句子中每个候选零代词具有指代关系的概率p(g)。
S1023.结合预设优化规则对指代关系概率进行优化,得到概率优化结果;
由于在同一句子当中通常只有一个零代词,因此正负例的比例非常悬殊,实验结果表明单纯使用原始数据训练效果很不理想。因此,需要先对候选零代词进行筛选,有效地减少反例的比例,再进行模型的训练。
零代词在中文中语义上存在,语法上空位,语音上被忽略,因此通常在短句或与前文紧密照应时使用,即要求零代词与先行语的距离较近,但又并非简单的最近名词短语。结合代词在句中通常的语法功能,基于启发式规则的算法有较高的召回率,但准确率并不高。
本发明使用几项启发式规则作为零代词识别训练的补充,可以有效地减少反例的比例,提高零代词识别的效果。所述预设优化规则设定为:
若T结点的父结点是IP结点,且T结点的前面没有NP、QP、IP或ICP兄弟结点,那么紧邻T前的间隙可能存在零代词;
若T结点是Arg0 or Arg1角色,那么紧邻T前的间隙可能存在零代词;
若T结点是动词AD,且该从句中没有Arg0 or Arg1角色或者没有NP节点,那么紧邻T前的间隙可能存在零代词。
需要说明的是,所述预设规则并不限于上述的几项规则,还能够根据情况进行调整。
S1024.根据概率优化结果获得目标零代词。
进一步地,使用所述预设优化规则得到当前输入句子的筛选结果lr,使用布尔向量表示候选零代词g是否可能具有指代关系,则概率优化结果输出为p(g)⊙lr,其中概率最大的位置被认为存在零代词。
其中,在不使用优化规则的前提下,零代词识别过程并不依赖于句法分析和语法角色标注。
S103.根据所有目标零代词及候选先行语获得表述对集合;
其中,所述候选先行语的识别是基于启发式规则获得的,这种方式具有较高的召回率。
进一步地,所述根据所有目标零代词及候选先行语获得表述对集合;如图3所示,包括:
S1031.根据上下文分析识别出候选先行语;
具体地,候选先行语的识别:对于在句法分析树中的结点T,如果结点T是一个NP结点,且结点T和其他的与它具有相同结尾词语的结点相比,具有最多数量的词语,那么结点T中的词语是候选先行语。
S1032.根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合;所有的目标零代词具有对应的目标零代词集合;
S1033.将目标零代词集合与候选先行语集合做笛卡尔积运算,构建出表述对集合;
S1034.根据句法分析特征和词向量特征,结合长短期记忆网络LSTMa和LSTMb,提取出表述对特征;
进一步地,所述句法分析特征包括短语结构句法分析特征和依存句法分析特征;
所述短语结构句法分析特征,对句子中的词语语法功能进行分析的基础上提取的相应特征,主要包括候选先行语和零代词的距离特征,以及在语法树上的位置关系;
具体特征描述见表1,其中每种特征使用一维布尔型向量表示。
表1结构句法特征表示
所述依存句法分析特征依存句法分析可以反映出句子各成分之间的语义修饰关系,它可以获得长距离的搭配信息,并与句子成分的物理位置无关;主要集中在零代词与候选先行语的关系特征,见表2;
表2依存句法特征表示
所述词向量特征包括本身词向量特征和上下文词向量特征;
所述本身词向量特征为构成先行语的词语的词向量特征;所述上下文词向量特征是固定大小的窗口内上下文的词向量组合得到的特征。
具体地,所述词向量特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征;
所述上下文词向量特征包括候选先行语的相关动词特征、零代词的相关动词特征、零代词的相关宾语特征。
详细地,所述候选先行语特征,为组成候选先行语的所有词语的词向量的均值;所述候选先行语的上文特征,为在上文窗口中,组成候选先行语上文的所有词语的词向量;所述候选先行语的下文特征,为在下文窗口中,组成候选先行语下文的所有词语的词向量;所述零代词的上下文特征,为在给定的上下文窗口中,组成零代词上下文的所有词语的词向量;所述候选先行语的相关动词特征,为与候选先行语最近的动词的词向量;所述零代词的相关动词特征,为零代词后的第一个动词的词向量;所述零代词的相关宾语特征,为零代词相关动词后的第一个名词的词向量。
需要说明的是,本发明使用两个长短期记忆网络LSTMa和LSTMb,通过均化池,分别计算出深层的候选先行语、候选先行语的上文、候选先行语的下文和零代词的上下文特征表示,组合成表述对特征;再通过一层隐含层,学习这些特征的相互作用和隐含关系(深度学习的过程);最后,输出层输出零代词与候选先行语之间有指代关系的概率;若将整个过程作为一个模型来看,则图4就是零代词消解模型的示意图;如图4所示。
指代词具有唯一先行语与之对应,为每个零代词找到一个最佳先行语,具体地,按照每一个指代词,为其所有候选先行语根据分类器模块预测出来的结果进行降序排序,为每个零代词选择出第一个先行语作为消解目标输出。
S104.获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;
S105.根据排序结果得到对应的零代词消解结果。
需要说明的是,本发明将词向量作为特征输入,使用长短期记忆网络(LSTM)进行表述对特征学习,应用深度学习的方法构建模型进行训练;进而进行目标零代词消解。
实施例二:
本实施例提供了一种中文零代词消解***,如图5所示,包括:
预处理模块110,用于通过对目标语料进行预处理,获取候选零代词标记;
进一步地,所述预处理模块110包括:
零代词标记单元111,用于根据数据集划分方法将目标数据集进行划分,得到零代词在训练集、测试集、验证集上的标记。
零代词识别模块120,用于对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;
进一步地,所述零代词识别模块120包括:
上下文语义特征获取单元121,用于将候选零代词上下文的词向量作为输入,利用双向循环神经网络获得上下文语义特征;
指代词识别单元122,用于将上下文语义特征输入logistic层,得到目标语料候选零代词指代词的概率;
概率优化结果获取单元123,用于结合预设优化规则对指代关系概率进行优化,得到概率优化结果;
目标零代词获取单元124,用于根据概率优化结果获得目标零代词。
表述对集合获取模块130,用于根据所有目标零代词及候选先行语获得表述对集合;
进一步地,所述表述对集合获取模块130包括:
候选先行语识别单元131,用于根据上下文分析识别出候选先行语;
对应集合获取单元132,用于根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合;所有的目标零代词具有对应的目标零代词集合;
表述对集合构建单元133,用于将目标零代词集合与候选先行语集合做笛卡尔积运算,构建出表述对集合;
表述对特征提取单元134,用于根据句法分析特征和词向量特征,结合长短期记忆网络(LSTM),通过均化池,分别提取出表述对特征;所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。
优选地,所述句法分析特征包括短语结构句法分析特征和依存句法分析特征;所述短语结构句法分析特征包括候选先行语和零代词的距离特征,以及在语法树上的位置关系;所述依存句法分析特征包括零代词与候选先行语的关系特征;
所述词向量特征包括本身词向量特征和上下文词向量特征;
所述本身词向量特征为构成先行语的词语的词向量特征;所述上下文词向量特征是固定大小的窗口内上下文的词向量组合得到的特征。
指代关系概率获取模块140,用于获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;
零代词消解模块150,用于根据排序结果得到对应的零代词消解结果。
综上所述,本发明通过预处理过程,进一步识别出候选零代词位置;然后结合预设优化规则,得到目标零代词,识别出目标语料中的零代词;
本发明根据目标零代词及候选先行语获得表述对集合;进一步获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;然后根据排序结果得到对应的零代词消解结果。
总之,本发明利用结合句法分析的预设优化规则,实现零代词的准确识别,通过使用深度学习的方法,使得零代词消解得以完成。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本发明中的技术方案中的各个模块均可通过计算机终端或其它设备实现。所述计算机终端包括处理器和存储器。所述存储器用于存储本发明中的程序指令/模块,所述处理器通过运行存储在存储器内的程序指令/模块,实现本发明相应功能。
本发明中的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
本发明中所述模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。可以根据实际的需要选择其中的部分或者全部模块/单元来达到实现本发明方案的目的。
另外,在本发明各个实施例中的各模块/单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种中文零代词消解方法,其特征在于,包括:
通过对目标语料进行预处理,获取候选零代词标记;
对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;
根据所有目标零代词及候选先行语获得表述对集合;
获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;
根据排序结果得到对应的零代词消解结果。
2.根据权利要求1所述的消解方法,其特征在于,所述通过对目标语料进行预处理,获取候选零代词标记,包括:
根据数据集划分方法将目标数据集进行划分,得到零代词在训练集、测试集、验证集上的标记。
3.根据权利要求1所述的消解方法,其特征在于,所述对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;包括:
将候选零代词上下文的词向量作为输入,利用双向循环神经网络获得上下文语义特征;
将上下文语义特征输入logistic层,得到目标语料候选零代词指代关系的概率;
结合预设优化规则对指代关系概率进行优化,得到概率优化结果;
根据概率优化结果获得目标零代词。
4.根据权利要求1所述的消解方法,其特征在于,所述根据所有目标零代词及候选先行语获得表述对集合;包括:
根据上下文分析识别出候选先行语;
根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合;所有的目标零代词具有对应的目标零代词集合;
将目标零代词集合与候选先行语集合做笛卡尔积运算,构建出表述对集合;
根据句法分析特征和词向量特征,结合长短期记忆网络模型,提取出表述对特征;所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。
5.根据权利要求4所述的消解方法,其特征在于,
所述句法分析特征包括短语结构句法分析特征和依存句法分析特征;
所述短语结构句法分析特征包括候选先行语和零代词的距离特征,以及在语法树上的位置关系;所述依存句法分析特征包括零代词与候选先行语的关系特征;
所述词向量特征包括本身词向量特征和上下文词向量特征;
所述本身词向量特征为构成先行语的词语的词向量特征;所述上下文词向量特征是由固定大小的窗口内上下文的词向量组合得到的特征。
6.一种中文零代词消解***,其特征在于,包括:
预处理模块,用于通过对目标语料进行预处理,获取候选零代词标记;
零代词识别模块,用于对候选零代词进行位置识别;位置识别的结果结合预设优化规则,得到目标零代词;
表述对集合获取模块,用于根据所有目标零代词及候选先行语获得表述对集合;
指代关系概率获取模块,用于获取每个表述对中目标零代词与候选先行语间指代关系的概率,并将多个指代关系的概率进行排序;
零代词消解模块,用于根据排序结果得到对应的零代词消解结果。
7.根据权利要求6所述的消解***,其特征在于,所述预处理模块包括:
零代词标记单元,用于根据数据集划分方法将目标数据集进行划分,得到零代词在训练集、测试集、验证集上的标记。
8.根据权利要求6所述的消解方法,其特征在于,所述零代词识别模块包括:
上下文语义特征获取单元,用于将候选零代词上下文的词向量作为输入,利用双向循环神经网络获得上下文语义特征;
指代词识别单元,用于将上下文语义特征输入logistic层,得到目标语料候选零代词指代词的概率;
概率优化结果获取单元,用于结合预设优化规则对指代关系概率进行优化,得到概率优化结果;
目标零代词获取单元,用于根据概率优化结果获得目标零代词。
9.根据权利要求6所述的消解方法,其特征在于,所述表述对集合获取模块包括:
候选先行语识别单元,用于根据上下文分析识别出候选先行语;
对应集合获取单元,用于根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合;所有的目标零代词具有对应的目标零代词集合;
表述对集合构建单元,用于将目标零代词集合与候选先行语集合做笛卡尔积运算,构建出表述对集合;
表述对特征提取单元,用于根据句法分析特征和词向量特征,结合长短期记忆网络LSTMa和LSTMb,提取出表述对特征;所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。
10.根据权利要求9所述的消解方法,其特征在于,
所述句法分析特征包括短语结构句法分析特征和依存句法分析特征;
所述短语结构句法分析特征包括候选先行语和零代词的距离特征,以及在语法树上的位置关系;所述依存句法分析特征包括零代词与候选先行语的关系特征;
所述词向量特征包括本身词向量特征和上下文词向量特征;
所述本身词向量特征为构成先行语的词语的词向量特征;所述上下文词向量特征是由固定大小的窗口内上下文的词向量组合得到的特征。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2017107654448 | 2017-08-30 | ||
CN201710765444 | 2017-08-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109165386A true CN109165386A (zh) | 2019-01-08 |
Family
ID=64893417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811000982.9A Pending CN109165386A (zh) | 2017-08-30 | 2018-08-30 | 一种中文零代词消解方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109165386A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948166A (zh) * | 2019-03-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN110162785A (zh) * | 2019-04-19 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
CN110309513A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN110413996A (zh) * | 2019-07-15 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 构造零指代消解语料的方法及装置 |
CN110427605A (zh) * | 2019-05-09 | 2019-11-08 | 苏州大学 | 面向短文本理解的省略恢复方法 |
CN110674630A (zh) * | 2019-09-24 | 2020-01-10 | 北京明略软件***有限公司 | 指代消解方法和装置、电子设备及存储介质 |
CN111626042A (zh) * | 2020-05-28 | 2020-09-04 | 成都网安科技发展有限公司 | 指代消解方法及装置 |
CN112256868A (zh) * | 2020-09-30 | 2021-01-22 | 华为技术有限公司 | 零指代消解方法、训练零指代消解模型的方法及电子设备 |
CN112800189A (zh) * | 2019-11-14 | 2021-05-14 | 科沃斯商用机器人有限公司 | 人机交互方法、装置、智能机器人和存储介质 |
WO2021164293A1 (zh) * | 2020-02-18 | 2021-08-26 | 平安科技(深圳)有限公司 | 基于大数据的零指代消解方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025659A (ja) * | 2003-07-01 | 2005-01-27 | Nippon Telegr & Teleph Corp <Ntt> | ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体 |
JP2005208782A (ja) * | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
US20160253309A1 (en) * | 2015-02-26 | 2016-09-01 | Sony Corporation | Apparatus and method for resolving zero anaphora in chinese language and model training method |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
-
2018
- 2018-08-30 CN CN201811000982.9A patent/CN109165386A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025659A (ja) * | 2003-07-01 | 2005-01-27 | Nippon Telegr & Teleph Corp <Ntt> | ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体 |
JP2005208782A (ja) * | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
US20160253309A1 (en) * | 2015-02-26 | 2016-09-01 | Sony Corporation | Apparatus and method for resolving zero anaphora in chinese language and model training method |
CN105988990A (zh) * | 2015-02-26 | 2016-10-05 | 索尼公司 | 用于汉语中的零指代消解的装置和方法以及模型训练方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948166A (zh) * | 2019-03-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN110162785A (zh) * | 2019-04-19 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
US11983493B2 (en) | 2019-04-19 | 2024-05-14 | Tencent Technology (Shenzhen) Company Limited | Data processing method and pronoun resolution neural network training method |
WO2020211720A1 (zh) * | 2019-04-19 | 2020-10-22 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
CN110427605A (zh) * | 2019-05-09 | 2019-11-08 | 苏州大学 | 面向短文本理解的省略恢复方法 |
CN110309513A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN110413996B (zh) * | 2019-07-15 | 2023-01-31 | 创新先进技术有限公司 | 构造零指代消解语料的方法及装置 |
CN110413996A (zh) * | 2019-07-15 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 构造零指代消解语料的方法及装置 |
CN110674630A (zh) * | 2019-09-24 | 2020-01-10 | 北京明略软件***有限公司 | 指代消解方法和装置、电子设备及存储介质 |
CN110674630B (zh) * | 2019-09-24 | 2023-03-21 | 北京明略软件***有限公司 | 指代消解方法和装置、电子设备及存储介质 |
CN112800189A (zh) * | 2019-11-14 | 2021-05-14 | 科沃斯商用机器人有限公司 | 人机交互方法、装置、智能机器人和存储介质 |
WO2021164293A1 (zh) * | 2020-02-18 | 2021-08-26 | 平安科技(深圳)有限公司 | 基于大数据的零指代消解方法、装置、设备及介质 |
CN111626042A (zh) * | 2020-05-28 | 2020-09-04 | 成都网安科技发展有限公司 | 指代消解方法及装置 |
CN112256868A (zh) * | 2020-09-30 | 2021-01-22 | 华为技术有限公司 | 零指代消解方法、训练零指代消解模型的方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165386A (zh) | 一种中文零代词消解方法及*** | |
CN110717339B (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN104063387B (zh) | 在文本中抽取关键词的装置和方法 | |
Mitra et al. | An automatic approach to identify word sense changes in text media across timescales | |
CN110196901A (zh) | 对话***的构建方法、装置、计算机设备和存储介质 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
Abujar et al. | A heuristic approach of text summarization for Bengali documentation | |
CN106156365A (zh) | 一种知识图谱的生成方法及装置 | |
CN107402913A (zh) | 先行词的确定方法和装置 | |
CN108073568A (zh) | 关键词提取方法和装置 | |
CN110457708A (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
Jha et al. | Homs: Hindi opinion mining system | |
CN109325229A (zh) | 一种利用语义信息计算文本相似度的方法 | |
CN105912629A (zh) | 一种智能问答方法及装置 | |
CN111858935A (zh) | 一种航班点评的细粒度情感分类*** | |
CN112631436B (zh) | 输入法敏感词的过滤方法及装置 | |
JP2006244262A (ja) | 質問回答検索システム、方法およびプログラム | |
Bharti et al. | Context-based sarcasm detection in Hindi tweets | |
CN108108347B (zh) | 对话模式分析***及方法 | |
CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN110321466A (zh) | 一种基于语义分析的证券资讯查重方法及*** | |
CN111309916A (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
Veena et al. | A graph-based relation extraction method for question answering system | |
CN107797981B (zh) | 一种目标文本识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190108 |
|
RJ01 | Rejection of invention patent application after publication |