CN111488733B - 基于Mask机制与孪生网络的汉语零指代消解方法及*** - Google Patents
基于Mask机制与孪生网络的汉语零指代消解方法及*** Download PDFInfo
- Publication number
- CN111488733B CN111488733B CN202010265414.2A CN202010265414A CN111488733B CN 111488733 B CN111488733 B CN 111488733B CN 202010265414 A CN202010265414 A CN 202010265414A CN 111488733 B CN111488733 B CN 111488733B
- Authority
- CN
- China
- Prior art keywords
- zero
- pronoun
- antecedent
- mask
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000007246 mechanism Effects 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000012886 linear function Methods 0.000 claims abstract description 32
- 230000029087 digestion Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 239000002243 precursor Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于Mask机制与孪生网络的汉语零指代消解方法及***,包括在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理;将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词;将注意力机制融入至所述BERT模型中,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词,结合预选的手工特征,分别通过各自线性函数处理得到第二零代词;计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词。本发明避免了信息的冗余及噪声。
Description
技术领域
本发明涉及信息处理的技术领域,尤其是指一种基于Mask机制与孪生网络的汉语零指代消解方法及***。
背景技术
指代是指篇章中用一个指代词回指某个以前说过的语言单位。在语言学中,指代词称为照应语,所指的对象或内容称为先行语。回指是修辞学的一种术语,是指在一段话或语篇中一次又一次的提及同一个词,同一个人或同一个事物的现象。指代消解就是确定照应语和先行语之间相互关系的过程,是自然语言处理的关键问题之一。如例1:小明非常喜欢他的书包。第一步检测到“他”是一个回指语,第二步,确定先行语为实体“小明”,即“他”所指代的对象为“小明”。在自然语言中,读者能够根据上下文的关系推断出来的部分经常会被省略,被省略的部分在句子中承担句子的句法成分,并且回指前文中说过的语言单位,这个现象称为零指代。零指代即指在本身应该出现回指词的地方用零代词代替。如例2:小明吃了一个苹果,很甜。根据文本的内容推断出句子中的零代词/>所指向的先行词为“苹果”,但是对计算机而言,由于零代词没有具体的表达,在回指位置的检测难度上,明显高于其余两种类型的回指,因此,零代词消解是回指消解任务中的难点与重点。
汉语零代词消解任务的研究刚刚起步,目前主要存在如下一些问题:由于指代消解属于篇章层面的任务,而之前的研究将任务定义在句子级上,将零代词所在的句子和候选先行词所在的句子分别表征,因此没有考虑到零代词与候选先行词之间的联系;在表示零代词时,由于零代词形式上不存在,传统方法使用整个句子的表征来表征零代词,从而可能会导致信息冗余,引入噪声。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中信息冗余,且存在噪声的问题,从而提供一种避免信息冗余及噪声的基于Mask机制与孪生网络的汉语零指代消解方法及***。
为解决上述技术问题,本发明的一种基于Mask机制与孪生网络的汉语零指代消解方法,包括:在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理;将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词;将注意力机制融入至所述BERT模型中,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数处理后得到第二零代词;计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词。
在本发明的一个实施例中,所述第一先行词采用手工制定的规则进行抽取。
在本发明的一个实施例中,所述注意力机制采用门控函数。
在本发明的一个实施例中,所述门控函数的计算方式为:st=tanh(W(att)·[enp;ezp]+b(att)),其中,W(att)和b(att)是模型学习的参数,m是候选先行词的单词数量,所述enp是第一先行词,所述enpi是所述第一先行词中的第i个字,所述ezp是第一零代词。
在本发明的一个实施例中,所述手工特征在预选时,根据经验设置。
在本发明的一个实施例中,所述第二零代词是根据所述第一零代词结合预选的手工特征分别通过所述第二线性函数处理后相加得出。
在本发明的一个实施例中,计算所述第二先行词和第二零代词的相似度的方法为:采用孪生网络结构计算相似度。
在本发明的一个实施例中,所述相似度的计算采用余弦计算所述第二先行词和第二零代词的相似度,当余弦相似度的计算数值范围在[-1,1]之间时,若数值越趋近于1,代表所述第二先行词与第二零代词的方向越接近;若数值越趋近于-1时,代表所述第二先行词与第二零代词的方向越相反。
在本发明的一个实施例中,当余弦相似度的计算数值输出后,利用损失函数反向传播至所述孪生网络中,处理所述孪生网络的配对数据的关系。
本发明还提供了一种基于Mask机制与孪生网络的汉语零指代消解***,包括:
Mask标记模块,用于在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理;
输入模块,用于将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词;
处理模块,用于将注意力机制融入至所述BERT模型中,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数处理后得到第二零代词;
计算模块,用于计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的基于Mask机制与孪生网络的汉语零指代消解方法,在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,从而充分考虑了零代词和先行词之间的相关性;将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词,从而有利于后续的计算;将注意力机制融入至所述BERT模型中,从而有利于将第一先行词中包含更多信息的部分与第一零代词对齐,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数处理后得到第二零代词,从而有利于更好的捕捉第一零代词及第一先行词之间的语法、位置和其它关系;计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词,由于本发明充分考虑了零代词与先行词之间的联系,同时在一定程度上利用了篇章信息;同时,不使用整个句子的信息来表示零代词,而是用[MASK]对应位置的向量来表示零代词,因此避免了信息的冗余及噪声。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明基于Mask机制与孪生网络的汉语零指代消解方法流程图;
图2是本发明孪生网络结构的示意图;
图3是本发明BERT模型基本框架;
图4是本发明BERT模型Embedding层;
图5是本发明基于Mask机制与孪生网络的汉语零指代消解模型
图6是OntoNotes 5.0语料库;
图7是本发明与yin的方法进行的比对表;
图8是前馈与Siamese的试验结果。
具体实施方式
实施例一
如图1所示,本实施例提供一种基于Mask机制与孪生网络的汉语零指代消解方法,包括:步骤S1:在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理;步骤S2:将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词;步骤S3:将注意力机制融入至所述BERT模型中,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数处理后得到第二零代词;步骤S4:计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词。
本实施例所述基于Mask机制与孪生网络的汉语零指代消解方法,所述步骤S1中,在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理,从而充分考虑了零代词和先行词之间的相关性;所述步骤S2中,将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词,从而有利于后续的计算;所述步骤S3中,将注意力机制融入至所述BERT模型中,从而有利于将第一先行词中包含更多信息的部分与第一零代词对齐,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数处理后得到第二零代词,从而有利于更好的捕捉第一零代词及第一先行词之间的语法、位置和其它关系;所述步骤S4中,计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词,由于本发明充分考虑了零代词与先行词之间的联系,同时在一定程度上利用了篇章信息;同时,不使用整个句子的信息来表示零代词,而是用[MASK]对应位置的向量来表示零代词,因此避免了信息的冗余及噪声。
本实施例中,所述孪生网络的结构如图2所示,其中所述孪生网络有两个结构相同,且权值共享的子结构Network_1和Network_2,用于分别接收两个输入X1与X2,将其转换为向量Gw(X1)与Gw(X2),最后通过某种距离度量的方式计算两个输出向量的距离Ew。
所述BERT模型的全称是Bidirectional Encoder Representation fromTransformers,即双向变压器(Transformer)的编码器(Encoder),因为解码器(decoder)是不能获得预测的信息。因此所述BERT模型的主要创新点都在预训练(pre-train)方法上,即用了已标记(Masked)的语言模型和下一句预测(Next Sentence Prediction)两种方法分别捕捉词语和句子级别的陈述(representation),如图3所示。
所述BERT模型的Embedding层由三种嵌入(Embedding)求和而成,如图4所示,其中,令牌嵌入(Token Embeddings)是词向量,第一个单词是CLS标志,可以用于之后的分类任务;段落嵌入(Segment Embeddings)用来区别两种句子,因为预训练不仅做语言模型还要做以两个句子为输入的分类任务;位置嵌入(Position Embeddings)是学习得出。
本实施例中,为了更好的将第一先行词中包含更多信息的部分与第一零代词对齐,将注意力机制融入至所述BERT模型中。所述注意力机制采用门控函数。
所述门控函数的计算方式为:st=tanh(W(att)·[enp;ezp]+b(att)),其中,W(att)和b(att)是模型学习的参数,m是候选先行词的单词数量,所述enp是第一先行词,所述enpi是所述第一先行词中的第i个字,所述ezp是第一零代词。
为了更好的捕捉第一零代词及第一先行词之间的语法、位置和其它关系,本申请手工抽取了一部分特征,如图5中efeature所示。所述手工特征在预选时,根据经验设置,具体地,这些特征来自于之前研究者的工作,这里就不再重复论述。
所述第二零代词Ezp是根据所述第一零代词ezp经过第二线性函数处理,结合预选的手工特征efeature经过第三线性函数相加后得到。具体地,将所述第一零代词ezp通过第二个线性函数处理后,再与预选的手工特征efeature通过第二个线性函数处理后相加得到第二零代词Ezp。
计算所述第二先行词和第二零代词的相似度的方法为:采用孪生网络结构计算相似度。
所述相似度的计算采用余弦(Cosine)计算所述第二先行词Enp和第二零代词Ezp的相似度Ew(np,zp),其中:np、zp表示第二先行词和第二零代词的语义向量,当余弦相似度的计算数值范围在[-1,1]之间时,若数值越趋近于1,代表所述第二先行词与第二零代词的方向越接近;若数值越趋近于-1时,代表所述第二先行词与第二零代词的方向越相反。
当余弦相似度的计算数值输出后,利用损失函数反向传播至所述孪生网络中,处理所述孪生网络的配对数据的关系。具体地,本申请利用对比损失(Contrastive loss)作为损失函数,采用这种损失函数可以有效的处理孪生网络中的配对数据(paired data)的关系,其表达式如下:
其中,np、zp表示第二先行词和第二零代词的语义向量,y(i)为np是否为zp的先行词,m为设定的阈值,N为样本个数。
下面以句子“建筑公司进区,有关部门先送上这些法规性文件,然后有专门队伍进行监督检查。”为例对上述过程中的关键步骤进行说明:
首先在零代词所在的位置上加“[MASK]”标记,得到补全后的零代词所在的句子:“建筑公司进区,有关部门先送上这些法规性文件,[MASK]然后有专门队伍进行监督检查。”,然后以候选先行词“有关部门”为例,由于先行词和[MASK]在同一句中,因此这里不需要进行拼接(如果先行词和[MASK]不在同一句,将先行词所在的句子和补全后零代词所在的句子进行拼接),如图5中的输入令牌(Input Tokens);将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词enp,和第一零代词ezp,有了第一零代词的表示ezp后,为了更好的将第一先行词enp中包含更多信息的部分与第一零代词ezp对齐,本申请将注意力(Attention)机制融入到BERT模型中,具体地,使用了一个门控函数作为注意力机制,对于第一先行词enp,通过第一线性函数处理得到第二先行词,例如,所述第一先行词enp是图5中的“有关部门”;对于第一零代词ezp通过第二线性函数后,再结合预选的手工特征efeature通过第三线性函数处理后得到第二零代词;通过余弦相似度计算所述第二先行词和第二零代词的相似度,从所述第二先行词集合中输出相似度最高的先行词。
本申请中,实验选用的语料为CoNLL-2012评测任务提供的OntoNotes5.0语料库,该语料是到目前为止承认度最高也是最知名的语料库。如图6对零指代的基本数量进行了统计,其中ZP指全部的零指代,AZP是可消解的指代,指能找到其先行语的零指代。该语料的划分方法与yin的论文中语料划分一致,因此本文后续实验是具有对比性的。其中yin的论文为Yin等提出了一个深度记忆网络,通过将零元素的上下文信息向量化来自动学习相关语义信息帮助零指代消解。
本申请中,将实验结果与yin(2018)的方法(SoA)进行了对比,具体结果如图7所示。特征Gold zero表示实验中默认零代词的位置已知。
通过实验结果的对比可以发现,基于Mask机制与孪生网络的汉语零指代消解方法要比yin的方法的性能高,F1值提升了5.7%。本模型的优势在于:(1)充分考虑了零代词与先行词之间的联系,同时在一定程度上考虑了篇章信息;(2)采用Siamese Network代替前馈神经网络进行预测,该方法更符合人类进行消解的思维。
同时,为了说明Siamese Network方法的有效性,本文进行了图8所示实验,其中BERT表示使用前馈神经网络进行先行词的判断,BERT-Siamese表示使用Siamese进行先行词的判断。由上述实验对比结果可以看到,Siamese Network的效果更好。
实施例二
基于同一发明构思,本实施例提供一种基于Mask机制与孪生网络的汉语零指代消解***,其解决问题的原理与所述基于Mask机制与孪生网络的汉语零指代消解方法相同,重复之处不再赘述。
本实施例所述基于Mask机制与孪生网络的汉语零指代消解***包括:
Mask标记模块,用于在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理;
输入模块,用于将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词;
处理模块,用于将注意力机制融入至所述BERT模型中,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数处理后得到第二零代词;
计算模块,用于计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种基于Mask机制与孪生网络的汉语零指代消解方法,其特征在于,包括如下步骤:
步骤S1:在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理;
步骤S2:将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词;
步骤S3:将注意力机制融入至所述BERT模型中,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数处理后得到第二零代词;
步骤S4:计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词。
2.根据权利要求1所述的基于Mask机制与孪生网络的汉语零指代消解方法,其特征在于:所述第一先行词采用手工制定的规则进行抽取。
3.根据权利要求1所述的基于Mask机制与孪生网络的汉语零指代消解方法,其特征在于:所述注意力机制采用门控函数。
4.根据权利要求3所述的基于Mask机制与孪生网络的汉语零指代消解方法,其特征在于:所述门控函数的计算方式为: 其中,W(att)和b(att)是模型学习的参数,m是候选先行词的单词数量,所述enp是第一先行词,所述enpi是所述第一先行词中的第i个字,所述ezp是第一零代词。
5.根据权利要求1所述的基于Mask机制与孪生网络的汉语零指代消解方法,其特征在于:所述手工特征在预选时,根据经验设置。
6.根据权利要求1或5所述的基于Mask机制与孪生网络的汉语零指代消解方法,其特征在于:所述第二零代词是根据所述第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数相加后得到。
7.根据权利要求1所述的基于Mask机制与孪生网络的汉语零指代消解方法,其特征在于:计算所述第二先行词和第二零代词的相似度的方法为:采用孪生网络结构计算相似度。
8.根据权利要求7所述的基于Mask机制与孪生网络的汉语零指代消解方法,其特征在于:所述相似度的计算采用余弦计算所述第二先行词和第二零代词的相似度,当余弦相似度的计算数值范围在[-1,1]之间时,若数值越趋近于1,代表所述第二先行词与第二零代词的方向越接近;若数值越趋近于-1时,代表所述第二先行词与第二零代词的方向越相反。
9.根据权利要求8所述的基于Mask机制与孪生网络的汉语零指代消解方法,其特征在于:当余弦相似度的计算数值输出后,利用损失函数反向传播至所述孪生网络中,处理所述孪生网络的配对数据的关系。
10.一种基于Mask机制与孪生网络的汉语零指代消解***,其特征在于:
Mask标记模块,用于在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理;
输入模块,用于将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词;
处理模块,用于将注意力机制融入至所述BERT模型中,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数处理后得到第二零代词;
计算模块,用于计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010265414.2A CN111488733B (zh) | 2020-04-07 | 2020-04-07 | 基于Mask机制与孪生网络的汉语零指代消解方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010265414.2A CN111488733B (zh) | 2020-04-07 | 2020-04-07 | 基于Mask机制与孪生网络的汉语零指代消解方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488733A CN111488733A (zh) | 2020-08-04 |
CN111488733B true CN111488733B (zh) | 2023-12-19 |
Family
ID=71794823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010265414.2A Active CN111488733B (zh) | 2020-04-07 | 2020-04-07 | 基于Mask机制与孪生网络的汉语零指代消解方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488733B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256868A (zh) * | 2020-09-30 | 2021-01-22 | 华为技术有限公司 | 零指代消解方法、训练零指代消解模型的方法及电子设备 |
CN113204965B (zh) * | 2021-05-31 | 2024-07-02 | 平安科技(深圳)有限公司 | 关键词提取方法、装置、计算机设备及可读存储介质 |
CN113392629B (zh) * | 2021-06-29 | 2022-10-28 | 哈尔滨工业大学 | 基于预训练模型的人称代词消解方法 |
CN114595700A (zh) * | 2021-12-20 | 2022-06-07 | 昆明理工大学 | 融合零代词与篇章信息的汉越神经机器翻译方法 |
CN115936020A (zh) * | 2022-12-06 | 2023-04-07 | 北京有竹居网络技术有限公司 | 文本翻译的方法、装置、电子设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN110427605A (zh) * | 2019-05-09 | 2019-11-08 | 苏州大学 | 面向短文本理解的省略恢复方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105988990B (zh) * | 2015-02-26 | 2021-06-01 | 索尼公司 | 汉语零指代消解装置和方法、模型训练方法和存储介质 |
-
2020
- 2020-04-07 CN CN202010265414.2A patent/CN111488733B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN110427605A (zh) * | 2019-05-09 | 2019-11-08 | 苏州大学 | 面向短文本理解的省略恢复方法 |
Non-Patent Citations (1)
Title |
---|
基于语义结构分析的汉语零代词消解;曹军, 周经野, 肖赤心;湘潭大学自然科学学报(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111488733A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488733B (zh) | 基于Mask机制与孪生网络的汉语零指代消解方法及*** | |
Sproat et al. | RNN approaches to text normalization: A challenge | |
Winata et al. | Code-switched language models using neural based synthetic data from parallel sentences | |
Cussens | Part-of-speech tagging using Progol | |
Fernández et al. | Classifying non-sentential utterances in dialogue: A machine learning approach | |
Schwartz et al. | Neural polysynthetic language modelling | |
Milajevs et al. | Investigating the contribution of distributional semantic information for dialogue act classification | |
Kato et al. | BERT-based simplification of Japanese sentence-ending predicates in descriptive text | |
Cho et al. | Speech intention understanding in a head-final language: A disambiguation utilizing intonation-dependency | |
Singh et al. | The transformers’ ability to implement for solving intricacies of language processing | |
CN114333838A (zh) | 语音识别文本的修正方法及*** | |
Kwong | Natural language processing | |
Oflazer et al. | Turkish and its challenges for language and speech processing | |
CN112257432A (zh) | 一种自适应意图识别方法、装置及电子设备 | |
Eo et al. | Research on subword tokenization of korean neural machine translation and proposal for tokenization method to separate jongsung from syllables | |
Mahafdah et al. | Arabic Part of speech Tagging using k-Nearest Neighbour and Naive Bayes Classifiers Combination. | |
JP3441400B2 (ja) | 言語変換規則作成装置、及びプログラム記録媒体 | |
Zare et al. | Deepnorm-a deep learning approach to text normalization | |
Lv et al. | StyleBERT: Chinese pretraining by font style information | |
Lovenia et al. | Automatic question-answer pairs generation from text | |
CN112634878A (zh) | 语音识别后处理方法和***及相关设备 | |
Choi et al. | An integrated dialogue analysis model for determining speech acts and discourse structures | |
Athanaselis et al. | A corpus based technique for repairing ill-formed sentences with word order errors using co-occurrences of n-grams | |
KR20200081782A (ko) | 문맥 기반의 키워드 변경을 통한 유사 문서/발화/스토리 자동생성 장치 | |
Watve et al. | English to hindi translation using transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |