CN109726389A - 一种基于常识和推理的中文缺失代词补全方法 - Google Patents
一种基于常识和推理的中文缺失代词补全方法 Download PDFInfo
- Publication number
- CN109726389A CN109726389A CN201811345695.1A CN201811345695A CN109726389A CN 109726389 A CN109726389 A CN 109726389A CN 201811345695 A CN201811345695 A CN 201811345695A CN 109726389 A CN109726389 A CN 109726389A
- Authority
- CN
- China
- Prior art keywords
- word
- matrix
- input text
- context
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种中文缺失代词补全方法,属于信息处理领域,该方法的特征包括:构建输入文本以及上下文文本矩阵;循环神经网络分别形成输入文本语义信息矩阵和输入文本上下文句子层面、词语层面语义背景矩阵;基于语义相似度得到输入文本上下文句子层面各句子重要程度的注意力权重;更新得到上下文句子层面语义信息矩阵;将结果融合输入文本矩阵;利用语义相似度得到输入文本上下文词语层面各句子重要程度的注意力权重;结合外部知识库更新词语注意力权重;结合句子注意力权重更新得到上下文语义信息矩阵;融合输入文本信息得到最终输入文本的推理信息矩阵;通过多层感知器得到层级式各词语的缺失代词概率分布;预测输入文本各词语缺失代词类型。
Description
技术领域
本发明涉及信息处理领域,特别涉及一种基于常识和语义推理的中文缺失代词补全方法。
背景技术
现有研究表明,中文是一种倾向于省略代词的语言,在中文中使用明确主题词的概率只有64%,省略代词的类型会根据不同语言环境而发生变化。在正式的中文表述比如新闻、杂志语料中,省略的代词常常为第三人称,而在非正式口语表述语料中,省略代词的类型除了第三人称,还包括一、二人称。中文对话的过程中,交流者可以在上下文语义背景环境中理解代词指示,从而省略代词以防止重复的表述;然而在英文表述中,每一个主题词都应该通过其代词或者确定先行词进行明确表达,中文省略代词在跨语言交流的过程中往往会导致模糊以及歧义。因此中文缺失代词补全任务非常值得研究。
在传统中文缺失代词补全任务中,常常利用特征工程的方法。特征工程从三个不同的角度提取数据中存在的特点——词汇特征、结构特征和句法特征。词汇特征主要包含词本身的含义、词性的连接和n-gram信息等;结构的特征包括对话人的信息、标点的信息等;句法特征主要包含句法树的结构、节点关系等信息。在提取特征的过程中,需要专家花销大量人工时间来对特征进行选择,同时最终的结果对于特征依赖关系是不同的。另外,有限的特征提取缺少了对于文本上下文语义背景信息的提取,导致许多关键信息的缺失。本发明为了解决上述问题,采用了对语义背景信息编码的推理模型,融入了常识知识库,利用传统方法与神经网络方法结合的方式,模拟人脑的推理过程,采用序列标注的原型,对中文缺失代词补全的类型进行预测。实验证明本发明的方法在中文缺失代词补全的问题上取得了较好的效果。
发明内容
为了解决现有的技术问题,本发明提供了一种基于常识和语义推理的中文缺失代词补全方法。方案如下:
步骤一,我们将输入文本的词语映射为词向量,将文本参数化,将输入文本转化为一个文本矩阵。
步骤二,我们使用循环神经网络对输入文本矩阵进行处理,得到输入文本各词向量相关的语义信息矩阵。
步骤三,我们对输入文本上下文的词语映射为词向量,将文本参数化,将输入文本上下文转化为上下文文本矩阵。
步骤四,我们使用循环神经网络对输入文本上下文矩阵进行处理,分别得到输入文本上下文句子层面背景语义矩阵和输入文本上下文词语层面背景语义矩阵。
步骤五,我们对加入语义信息的输入文本矩阵和输入文本上下文句子层面语义信息矩阵进行处理,通过语义相似度计算,得到输入文本上下文句子层面各句子重要程度的注意力权重。
步骤六,我们利用上下文句子层面的注意力权重与句子层面语义信息矩阵进行点乘操作,得到更新后的上下文句子层面语义信息矩阵。
步骤七,我们对加入语义信息的输入文本矩阵和更新后上下文句子层面语义信息矩阵进行拼接,利用前向神经网络,得到融合上下文句子层面语义信息的输入文本的信息矩阵。
步骤八,我们对融合上下文句子层面语义信息的输入文本的信息矩阵和输入文本上下文词语层面语义信息矩阵进行处理,通过语义相似度的计算,得到输入文本上下文词语层面各词语重要程度的注意力权重。
步骤九:我们对中文对话知识库中语料进行词性标注,定位代词附近的名词按照词频筛选得到关键名词库,将名词词语映射为词向量,得到向量化的常识名词信息。
步骤十:我们利用关键常识名词信息在文本上下文中匹配,得到常识关键名词的位置信息矩阵。
步骤十一:我们利用常识名词的位置信息矩阵对词语层面各词语重要程度的注意力权重进行更新,将结果与输入文本上下文词语层面语义信息矩阵点乘,得到更新的输入文本上下文词语层面语义信息矩阵。
步骤十二:我们利用输入文本上下文句子层面各句子重要程度的注意力权重对输入文本上下文词语层面语义信息矩阵进行点乘操作,在词语层面上加入句子重要性的限制,得到最终输入文本上下文信息矩阵。
步骤十三,我们对加入语义信息的输入文本矩阵和输入文本上下文信息矩阵进行拼接,利用前向神经网络,得到了融合上下文语义信息的输入文本的信息推理矩阵。
步骤十四,我们对最终融合上下文语义信息的输入文本的信息矩阵中各词向量的特征表示进行处理,将特征向量经过多层感知器,分别得到输入文本各词语的缺失代词的两种层面的概率分布:第一层为①对上下文信息依赖程度的概率分布,第二层为②各代词类型的概率分布,将两个方面的两种概率对位点乘,得到最终输入文本各词语缺失代词的概率分布。
步骤十五,我们在整体输入文本层面对各个词语的概率分布进行预测,得到输入文本各词语缺失代词类型。
附图说明
图1是本发明提供的基于常识和语义推理的中文缺失代词补全方法的网络结构图;
图2是长短期记忆网络单元内部结构构图。
具体实施方式
接下来将对本发明的实施方案做更详细的描述。
图1是本发明提供的中文缺失代词补全方法的网络结构图,其中包括:
步骤S1:向量化输入文本;
步骤S2:循环神经网络形成输入文本语义矩阵;
步骤S3:向量化输入文本上下文;
步骤S4:循环神经网络形成输入文本上下文背景语义矩阵;
步骤S5:基于语义相似度得到输入文本上下文句子层面各句子重要程度的注意力权重;
步骤S6:基于注意力机制更新得到输入文本上下文句子层面语义信息矩阵;
步骤S7:基于前向神经网络得到输入文本与上下文句子层面信息融合矩阵;
步骤S8:基于语义相似度得到输入文本上下文词语层面各词语重要程度的注意力权重;
步骤S9:向量化从常识知识库中抽取的关键名词;
步骤S10:基于常识知识库得到输入文本上下文词常识关键名词位置信息矩阵;
步骤S11:基于注意力机制和常识关键词更新得到输入文本上下文词语层面语义信息矩阵;
步骤S12:基于点乘得到最终输入文本上下文信息矩阵;
步骤S13:基于前向神经网络得到输入文本与上下文信息融合推理矩阵;
步骤S14:多层感知器得到层级式输入文本各词语缺失代词的概率分布;
步骤S15:使用概率分布预测输入文本各词语缺失代词类型。
下面将对每个步骤进行具体的说明:
步骤s1:向量化输入文本。本发明首先建立词语到词向量编号的映射表,通过映射,将输入文本的各个词语映射为相应的词语编号。建立词库的词向量矩阵,即词语到对应词向量的矩阵,词向量矩阵中每一行代表对应词的词向量,行号调整为编号映射表中对应词的编号。通过两次映射,分别将词语映射为词语编号、再映射为编号对应词向量,通过向量列连接形成输入文本矩阵。假设训练词库中词语数量为N,那么词向量矩阵大小为N*d,其中d表示词向量的维度。输入文本的词语两次映射得到词向量连接而成的文本矩阵X。
X=x1∞x2∞……∞xs-1∞xs
其中,xi表示输入文本中第i个词的词向量,s表示输入文本的长度,即输入文本中词语个数,“∞”表示向量的列连接。
步骤s2:循环神经网络形成输入文本语义矩阵:文本数据不同于图像数据,文本是一种时序的数据,即每一个输入词语都依赖于前后文出现过的词语,即上下文的语义信息,循环神经网络可以更好的提取文本的上下文信息,并且在文本处理领域中广泛应用,如:中文分词,文本分类。相比于基于统计学习的N-Gram的方法,循环神经网络可以关注到更长时间的依赖关系,更好的捕捉文章的整体信息,从而可以更好地获取时序文本上下文的依赖关系。传统循环神经网络在解决实际问题时会出现梯度消失或梯度***的问题,而长短期记忆网络可以很好解决梯度问题。单向的长短期记忆网络能够单方向的提取文本语义信息,这会造成部分后续信息的遗漏,双向长短期记忆网络具有正向与反向两个不同的循环单元,对上下文语义信息提取的更全面。因此,本发明在获得输入文本矩阵的基础上,利用双向长短期记忆网络获取每个词在输入文本中的语义信息,得到输入文本语义信息矩阵。
图2给出了一种长短期记忆网络的单元结构,时刻n的矩阵状态可表示为:
in=σ(Wi·xn+Ui·hn-1+bi)
fn=σ(Wf·xn+Uf·hn-1+bf)
on=σ(Wo·xn+Uo·hn-1+bo)
hn=on⊙tanh(Cn)
其中x是输入的文本向量,C为记忆单元,i是输入门,f是忘记门,o是输出门。σ是sigmoid激活函数。“⊙”是数值对位相乘,“·”是点积。W和U分别是输入和隐藏层的权重矩阵,b是偏置。是记忆单元的候选值,由当前的输入与之前的隐藏层状态共同决定。Cn通过输入门和忘记门分别作用于记忆单元候选值和前一时刻记忆单元值。各词向量相关的文本信息有相应时刻输出决定,分别对应了输入的每一个词。
双向长短期记忆网络在单向网络基础上添加了两个方向,增加了完整的语义信息。得到各词向量的特征表示由正向及反向单元输出向量拼接而成,即横向连接:
其中表示正向长短期记忆网络在n时刻(即对第n个词)的输出,表示反向长短期记忆网络在n时刻的输出。与横向拼接作为加入语义信息的输入文本矩阵表示。
步骤s3:向量化输入文本上下文。本发明根据依据实验结果,选取输入文本句子前5句及后2句,共7句话作为输入文本上下文。上下文向量化的方式与步骤s1输入文本向量化方式相同,将输入文本上下文的词语通过编号矩阵和词向量矩阵的两次映射,得到词向量连接而成的上下文文本矩阵C。
C=X1∞X2∞……∞Xm-1∞Xm
其中m表示C中句子的数量,“∞”表示向量的列连接,其中Xm可参考步骤s1得到。
步骤S4:循环神经网络形成输入文本上下文背景语义矩阵。循环神经网络的优势是获取前后文的语义背景信息,双向循环神经网络可以解决梯度***和消失的问题,具体描述参见步骤s2,本发明s4步骤同样使用双向长短期记忆网络来获取输入文本上下文的语义信息。在对输入文本上下文语义信息提取的过程中分为两个方面:
①得到输入文本上下文句子层面背景语义矩阵:对于C中每个句子i,i={1,2,…,m},将输入文本上下文矩阵通过双向长短期记忆网络,在整个文本层面,取输出矩阵中每句话i句子层面的隐藏层向量最后一个状态作为句子层面语义信息表示;
其中i表示通过网络第i个时刻的最后状态,即句子的编号。
②得到输入文本上下文词语层面背景语义矩阵:对于C中第i句话的每一个词j,j={1,2,…,k},将输入文本上下文矩阵通过双向长短期记忆网络,在整个文本层面,取输出矩阵在j时刻表征词语的每一个隐藏状态进行连接作为词语层面语义信息表示。
其中i表示上下文中句子编号,j表示第i句通过网络的第j时刻(即第j个词)。
步骤s5:基于语义相似度得到输入文本上下文句子层面各句子重要程度的注意力权重。本发明基于语义推理的框架,模拟人脑思考缺失代词补全问题的方式,从背景上下文中判断各个句子重要程度。此操作旨在找出在上下文中最能表征输入句子语义含义的句子,通过语义相似程度的计算,在句子层面上得出得到输入文本上下文句子层面各句子重要程度的注意力权重。
其中表示加入语义信息的输入文本矩阵,csi表示输入文本上下文句子层面语义信息矩阵。“·”表示点乘操作,即等价于对余弦相似度的计算,把两个向量间的相似程度表征为概率分布。第二个公式为机器学习中非常重要的概率函数softmax函数,通过softmax函数使得rsi(语义相似程度)的概率范围限制在[0,1]之间,将负无穷到0区间的概率趋向于0,将0到正无穷区间的概率趋向于1。同时softmax函数加入了e幂函数使得概率两极化,从而很好的区分了不同上下文句子对于输入文本语义的贡献程度。
步骤s6:基于注意力机制更新得到输入文本上下文句子层面语义信息矩阵。本发明利用输入文本上下文句子层面各句子重要程度的注意力权重点乘输入文本上下文句子层面语义信息矩阵中表征句子的各向量,将输入文本上下文矩阵更新为具有不用语义贡献程度的句子层面的信息矩阵。
Sn=∑iasi·csi
其中asi为输入文本上下文句子层面各句子重要程度的注意力权重,csi为输入文本上下文句子层面语义信息矩阵,i表示句子的个数,得到Sn为更新后的上下文句子层面语义信息矩阵。
步骤s7:基于前向神经网络得到输入文本与上下文句子层面信息融合矩阵。本发明利用加入语义信息的输入文本矩阵和更新后输入文本上下文句子层面语义信息矩阵进行拼接,通过前向神经网络,将上下文句子层面的信息加入输入文本中,用于推理后续的词层面的语义信息,找到关键的代词指示物。
hsn=W2d*4d[hn,sn]+b2d
其中“W”为权重矩阵,b为偏置,hn为加入语义信息的输入文本矩阵,与文本上下文句子层面语义信息矩阵sn连接,把输入文本作为整体,通过前向神经网络,得到输入文本与上下文句子层面信息融合矩阵hsn。
步骤s8:基于语义相似度得到输入文本上下文词语层面各词语重要程度的注意力权重。本发明基于语义推理的框架,模拟人脑思考缺失代词补全问题的方式,在获得关键句子信息的基础之上,从上下文中意图寻找缺失代词的指示物。此操作旨在找出在上下文中对缺失代词指示词语义贡献最大的词语,通过在词语层面上计算语义信息相似度得到输入文本上下文词语层面各词语重要程度的注意力权重。
rwn,i,j=W1*2d(hsn⊙cwi,j)+b1
其中hsn为输入文本的推理信息矩阵,cwi,j为输入文本上下文词语层面语义信息矩阵,“W”为权重矩阵,b为偏置,“⊙”是数值对位相乘操作。本发明利用语义相似度——对位相乘计算融合矩阵中词语与上下文矩阵中词语的相似程度。再将结果通过softmax网络(详细请参见步骤s5)归一化并两极化,得到最终输入文本上下文词语层面各词语重要程度的注意力权重。
步骤s9:向量化从常识知识库中抽取的关键名词。本发明中常识知识库采用中文“知乎”语料库,由于“知乎”语料大多数为对话语料,与本发明数据集类型相符。首先对常识库中的语料进行分词和词性标注;对词性为代词附近的名词进行统计,本发明总结代词前后100个词中出现的名词形成名词候选库;之后对于候选名词库中的名词进行词频的统计与排序,选取词频前500的名词组成关键名词库;最后将得到的关键常识名词通过词向量的映射,连接成为常识名词矩阵。
步骤s10:基于常识知识库得到输入文本上下文词常识关键名词位置信息矩阵。通过常识名词知识库与上下文向量化矩阵进行向量的匹配,若上下文包含常识库中的名词,即匹配成功,记录当前词语在上下文中的位置并将位置标记为“1”,反之标记为“0”,最终得到常识关键名词的位置信息矩阵pwn,i,j。
其中pwn,i,j的大小与awn,i,j维度相同,i表示上下文句子的序号,j表示第i句中词的序号。
步骤s11:基于注意力机制和常识关键词更新得到输入文本上下文词语层面语义信息矩阵。本发明首先通过常识关键名词的位置信息矩阵更新输入文本上下文词语层面各词语重要程度的注意力权重,原理为常识名词对于代词缺失提供的信息比普通的词要多,需要在上下文中出现常识关键名词时注意力权重加大。之后将更新后的入文本上下文词语层面各词语重要程度的注意力权重与输入文本上下文词语层面语义信息矩阵进行点乘,将注意力权重分配给上下文对应的每一个词,从而上下文词的语义信息多了对于缺失代词信息的贡献程度大小。
aw_tn,i,j=awn,i,j⊙(1+pwn,i,j)
其中其中awn,i,j为输入文本上下文词语层面各词语重要程度的注意力权重,pwn,i,j为常识关键名词的位置信息矩阵,cwi,j为输入文本上下文词语层面语义信息矩阵,“⊙”为对位相乘操作,“·”为点乘操作,得到将每个词都加上相应权重的词语矩阵twn,i。
步骤s12:基于点乘得到最终输入文本上下文信息矩阵。本发明对得到的更新得到输入文本上下文词语层面语义信息矩阵与输入文本上下文句子层面语义信息矩阵进行点乘操作,使得词语在区分相似度的同时考虑到关键句子对整体语义信息的影响,生成最终输入文本上下文信息矩阵。
wn=∑iasi·twn,i
其中asi为输入文本上下文句子层面各句子重要程度的注意力权重,twn,i为将每个词都加上相应权重的词语矩阵。
步骤s13:基于前向神经网络得到输入文本与上下文信息融合推理矩阵。本发明利用加入语义信息的输入文本矩阵和输入文本上下文信息矩阵进行拼接,通过前向神经网络,将上下文句子、词语层面的信息全部加入输入文本中,融合成最终的推理信息矩阵,用于后续的缺失代词类型的预测。
步骤s14:多层感知器得到输入文本各词语的缺失代词的概率分布。本发明利用步骤s13得到的最终的推理信息矩阵,在整个输入文本层面,将各个词向量的特征表示通过多层感知器网络处理,分别计算得到输入文本各词语的缺失代词的两种层面的概率分布:第一层为①对上下文信息依赖程度的概率分布,第二层为②各代词类型的概率分布。其中第一层为3分类,第二层为17分类。采用层进式的概率分布算法,先将3分类与各类别对应位置矩阵Wp点乘,Wp目的是为了将3维概率分布按照相应类别展开为17维。得到三分类对应位置映射的17分类,再将结果与原17分类的结果进行对位相乘得到最终预测缺失代词类型的概率分布。
P(yn|xn,C,N)_1=softmax(MLP_03(hn,sn,wn))
P(yn|xn,C,N)_2=softmax(MLP_17(hn,sn,wn))
P(yn|xn,C,N)_3=P(yn|xn,C,N)_1·Wp
P(yn|xn,C,N)_17=P(yn|xn,C,N)_2⊙P(yn|xn,C,N)_3
其中MLP为多层感知器,其组成包含前向神经网络以及激活函数,前向神经网络具体可参照步骤s7,激活函数为了是的多层感知器可以实现反向传播的算法,本发明使用的激活函数为Relu函数,此激活函数的优点在于可以解决梯度消失问题并且训练速度快。softmax函数具体作用可以参照步骤s5。“⊙”为对位相乘操作。
步骤s15:使用概率分布预测输入文本各词语缺失代词类型。对步骤s14得到的最终概率结果在整体输入文本层面对各个词语的概率进行预测,缺失代词概率分布最大的类别被认为是最后可能的缺失代词类型,得到预测的缺失代词类别。
以上结合附图对所提出的一种融合常识基于语义推理的中文缺失代词补全方法及各步骤的具体实施方式进行了阐述,通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用平台的方式来实现。
依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明精神和原则之内所做的修改、等同替换和改进等,均应在本发明的保护范围之内。
Claims (19)
1.一种基于常识和语义推理的中文缺失代词补全方法,其特征在于,所述方法包含以下结构和步骤:
(1)向量化输入文本:对输入文本词语进行映射,将词语转化为相应词向量,输入已分词的输入文本即数值化为各个词语对应词向量连接而成的文本矩阵;
(2)循环神经网络形成输入文本语义矩阵:对步骤(1)得到的文本矩阵进行处理,利用循环神经网络编码各个词对应输入文本的语义信息,得到输入文本语义矩阵;
(3)向量化输入文本上下文:对输入文本上下文词语进行映射,将词语转化为相应词向量,输入已分词的输入文本上下文即数值化为各个词语对应词向量连接而成的上下文文本矩阵;
(4)循环神经网络形成输入文本上下文背景语义矩阵:对步骤(3)得到的上下文文本矩阵进行处理,利用循环神经网络编码各个词对应输入文本上下文的语义信息,此语义信息两个分支得到不同的背景语义矩阵:①输入文本上下文句子层面背景语义矩阵;②输入文本上下文词语层面背景语义矩阵;
(5)基于语义相似度得到输入文本上下文句子层面各句子重要程度的注意力权重:对步骤(2)得到的输入文本矩阵和步骤(4)①得到的输入文本上下文句子层面语义信息矩阵进行处理,利用语义相似度模型,得到输入文本上下文句子层面各句子重要程度的注意力权重;
(6)基于注意力机制更新得到输入文本上下文句子层面语义信息矩阵:对步骤(4)①得到的输入文本上下文句子层面语义信息矩阵利用步骤(5)得到的句子层面注意力权重进行处理,通过注意力机制,得到更新后的上下文句子层面语义信息矩阵;
(7)基于前向神经网络得到输入文本与上下文句子层面信息融合矩阵:对步骤(2)得到加入语义信息的输入文本矩阵和步骤(6)得到的输入文本上下文句子层面语义信息矩阵进行处理,利用前向神经网络,得到融合后的输入文本信息矩阵;
(8)基于语义相似度得到输入文本上下文词语层面各词语重要程度的注意力权重:对步骤(7)得到的融合后输入文本信息矩阵和步骤(4)②得到的输入文本上下文词语层面语义信息矩阵进行处理,利用语义相似度模型,得到输入文本上下文词语层面各词语重要程度的注意力权重;
(9)向量化从常识知识库中抽取的关键名词:从常识知识库中提取缺失代词附近常出现的名词,对名词排序抽取关键词,将关键词通过映射转化为相应词向量,连接得到关键名词矩阵;
(10)基于常识知识库得到输入文本上下文词常识关键名词位置信息矩阵:将步骤(9)得到的关键名词词向量矩阵与步骤(3)得到输入文本上下文词向量矩阵进行处理,得到输入文本上下文常识关键名词位置信息矩阵;
(11)基于注意力机制和常识关键词更新得到输入文本上下文词语层面语义信息矩阵:对步骤(8)得到的输入文本上下文词语层面各词语重要程度的注意力权重与步骤(10)得到的输入文本上下文词常识关键名词位置信息矩阵进行处理,得到更新后输入文本上下文词语层面各词语重要程度的权重,再将更新后的权重与步骤(4)②得到的输入文本上下文词语层面语义信息矩阵处理,得到更新的输入文本上下文词语层面语义信息矩阵;
(12)基于点乘得到最终输入文本上下文信息矩阵:对步骤(5)得到的输入文本上下文句子层面各句子重要程度的注意力权重和步骤(11)得到的上下文词语层面语义信息矩阵进行处理,得到最终输入文本上下文信息矩阵;
(13)基于前向神经网络得到输入文本与上下文信息融合推理矩阵:对步骤(2)得到加的入语义信息的输入文本矩阵和步骤(12)得到的输入文本上下文词语层面语义信息矩阵进行处理,利用前向神经网络,得到最终融合后的输入文本信息矩阵;
(14)多层感知器得到层级式输入文本各词语缺失代词的概率分布:对步骤(13)得到的输入文本信息矩阵各个词向量对应的特征表示进行处理,利用多层感知机和层级式的分类标签,得到最终输入文本各词语缺失代词的概率分布;
(15)使用概率分布预测输入文本各词语缺失代词类型:对步骤(15)得到的各词语的缺失代词的概率分布进行处理,在整体输入文本层面对各个词语的概率分布进行预测,得到输入文本各词语缺失代词类型。
2.如权利要求1所述的方法,其特征在于,所属步骤(1)具体包括:
(1.1)初始化词语到词向量编号的映射索引及词向量矩阵;
(1.2)通过索引将词语映射为相应词向量编号;
(1.3)通过各个输入文本词语对应的词语编号取得词向量矩阵中对应的词向量;
(1.4)将取得的词向量进行连接,得到各个词语的词向量连接而成的输入文本矩阵。
3.如权利要求1所述的方法,其特征在于,所属步骤(2)具体包括:
(2.1)初始化循环神经网络参数;
(2.2)将步骤(1)得到的输入文本矩阵通过循环神经网络进行处理,得到关于各个词向量相关的输入文本语义矩阵。
4.如权利要求1所述的方法,其特征在于,所属步骤(2)循环神经网络为双向长短期记忆网络。
5.如权利要求1所述的方法,其特征在于,所属步骤(3)具体包括:
(3.1)初始化词语到词向量编号的映射索引及词向量矩阵;
(3.2)通过索引将词语映射为相应词向量编号;
(3.3)通过各个输入文本上下文词语对应的词语编号取得词向量矩阵中对应的词向量;
(3.4)将取得的词向量进行连接,得到各个词语的词向量连接而成的输入文本上下文矩阵。
6.如权利要求1所述的方法,其特征在于,所属步骤(3)输入文本上下文包含输入文本的前五个句子与后两个句子,共七句话。
7.如权利要求1所述的方法,其特征在于,所属步骤(4)具体包括
(4.1)初始化循环神经网络参数;
(4.2)将步骤(4)得到的输入文本矩阵通过循环神经网络进行处理,得到关于各个词向量相关的文本语义信息;
(4.3)取循环神经网络在上下文句子层面隐藏层最后一个状态的输出作为输入文本上下文句子层面语义信息,最终连接成为句子层面背景语义矩阵;
(4.4)取循环神经网络在上下文对每一个词语的状态隐藏层的输出作为输入文本上下文词语层面语义信息,最终连接成为词语层面背景语义矩阵。
8.如权利要求1所述的方法,其特征在于,所属步骤(4)循环神经网络为双向长短期记忆网络。
9.如权利要求1所述的方法,其特征在于,所属步骤(5)具体包括:
(5.1)语义相似度是衡量两个向量相似程度的方法,具体本专利使用余弦相似度;
(5.1)对步骤(2)得到的语义信息输入文本矩阵和步骤(4)①得到的输入文本上下文句子层面语义信息矩阵,以矩阵作为整体对于每一行句子层面的向量表示,两者进行余弦相似度计算,用来衡量上下文句子与输入文本句子间的相似程度;
(5.2)将步骤(5.1)中计算得到余弦相似度数值归一化,得到衡量输入文本上下文句子层面各句子重要程度的注意力权重。
10.如权利要求1所述的方法,其特征在于,所属步骤(6)具体包括:
通过步骤(5)得到的上下文基于句子层面注意力权重对(4)①得到的输入文本上下文句子层面语义信息矩阵中表征句子的各向量进行点乘,利用注意力机制,将输入文本上下文每个句子的重要程度进行表示,得到更新后的上下文句子层面语义信息矩阵。
11.如权利要求1所述的方法,其特征在于,所属步骤(7)具体包括:
(6.1)初始化前向神经网络参数;
(6.2)将步骤(2)得到加入语义信息的输入文本矩阵和步骤(6)得到的输入文本上下文句子层面语义信息矩阵进行拼接;
(6.3)将拼接矩阵中各向量对应的特征表示输入前向神经网络,得到融合上下文句子层面语义信息的输入文本的信息矩阵。
12.如权利要求1所述的方法,其特征在于,所属步骤(8)具体包括:
(7.1)语义相似度是衡量两个向量相似程度的方法,具体本专利使用余弦相似度;
(7.1)对步骤(7)得到的推理信息矩阵和步骤(4)②得到的输入文本上下文词语层面语义信息矩阵,以矩阵作为整体对于每一词语层面的向量表示,两者进行余弦相似度计算,用来衡量上下文词语与输入文本每个词语间的相似度;
(7.2)将步骤(7.1)中计算得到余弦相似度数值归一化,得到衡量输入文本上下文词语层面各词语重要程度的注意力权重。
13.如权利要求1所述的方法,其特征在于,所属步骤(9)具体包括:
(8.1)选择中文对话知识库,对知识库中的语料进行词性标注;
(8.2)针对知识库中出现的已知代词,选择代词前后“阈值”数量的词语,本专利中此步骤的“阈值”大小为100;
(8.3)将选择的词语中依据词性标注的结果再筛选出词性为名词的词;
(8.4)统计最后得到名词的频率,取频率大小前“阈值”数量的名词作为候选名词常识库,本专利中此步骤的“阈值”大小为300;
(8.5)将常识名词库中的名词对应的词语编号取得词向量矩阵中对应的词向量,得到向量化的常识名词信息。
14.如权利要求1所述的方法,其特征在于,所属步骤(10)具体包括:
通过步骤(10)得到的常识知识库名词词向量与步骤(3)得到输入文本上下文词向量进行匹配,如果匹配成功,记录当前词语的位置信息并标记为“1”,否则标记为“0”,最终得到常识关键名词的位置信息矩阵。
15.如权利要求1所述的方法,其特征在于,所属步骤(11)具体包括:
(9.1)对步骤(8)得到的输入文本上下文词语层面各词语重要程度的注意力权重与步骤(10)得到的输入文本上下文词常识关键名词位置信息矩阵进行相乘,得到只包含常识关键名词的权重;
(9.2)对步骤(9.1)得到的权重与步骤(8)得到的输入文本上下文词语层面各词语重要程度的注意力权重进行相加,最终结果相当于在原来注意力权重的基础上放大了常识关键词对应的权重;得到加入常识的输入文本上下文词语层面各词语重要程度的权重;
(9.3)对步骤(4)②得到的输入文本上下文词语层面语义信息矩阵与步骤(9.2)得到的加入常识的输入文本上下文词语层面各词语重要程度的权重进行点乘操作,得到更新的输入文本上下文词语层面语义信息矩阵。
16.如权利要求1所述的方法,其特征在于,所属步骤(12)具体包括:
对步骤(5)得到的输入文本上下文句子层面各句子重要程度的注意力权重和步骤(11)得到的上下文词语层面语义信息矩阵进行点乘操作,在词语层面权重的基础上考虑句子重要程度的信息,得到最终输入文本上下文信息矩阵。
17.如权利要求1所述的方法,其特征在于,所属步骤(13)具体包括:
(10.1)初始化前向神经网络参数;
(10.2)将步骤(2)得到加入语义信息的输入文本矩阵和步骤(12)得到的输入文本上下文信息矩阵进行拼接;
(10.3)将拼接矩阵中各向量对应的特征表示输入前向神经网络,得到融合上下文语义信息的输入文本的信息矩阵。
18.如权利要求1所述的方法,其特征在于,所属步骤(14)具体包括:
(9.1)初始化多层感知器网络参数;
(9.2)将步骤(13)得到的融合上下文语义信息的输入文本的信息矩阵中各词向量对应的特征表示输入多层感知器,分别得到输入文本各词语的缺失代词的两种层面的概率分布:第一层为①对上下文信息依赖程度的概率分布,第二层为②各代词类型的概率分布;
(9.3)将步骤(9.2)①得到对上下文信息依赖程度的概率分布分别对位乘以步骤(9.2)②得到的各代词类型的概率分布,得到最终输入文本各词语缺失代词的概率分布。
19.如权利要求1所述的方法,其特征在于,所属步骤(15)具体包括:
对于步骤(11)得到输入文本中各词语的概率分布进行处理,在整个输入文本层面,缺失代词概率最大的类别被认为是最后可能的缺失代词类型,得到预测的缺失代词类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811345695.1A CN109726389B (zh) | 2018-11-13 | 2018-11-13 | 一种基于常识和推理的中文缺失代词补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811345695.1A CN109726389B (zh) | 2018-11-13 | 2018-11-13 | 一种基于常识和推理的中文缺失代词补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109726389A true CN109726389A (zh) | 2019-05-07 |
CN109726389B CN109726389B (zh) | 2020-10-13 |
Family
ID=66295366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811345695.1A Active CN109726389B (zh) | 2018-11-13 | 2018-11-13 | 一种基于常识和推理的中文缺失代词补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726389B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427461A (zh) * | 2019-08-06 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 智能问答信息处理方法、电子设备及计算机可读存储介质 |
CN110427625A (zh) * | 2019-07-31 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语句补全方法、装置、介质及对话处理*** |
CN110544222A (zh) * | 2019-09-05 | 2019-12-06 | 重庆瑞信展览有限公司 | 一种视觉传达图像清晰化处理方法和*** |
CN111046907A (zh) * | 2019-11-02 | 2020-04-21 | 国网天津市电力公司 | 一种基于多头注意力机制的半监督卷积网络嵌入方法 |
CN111475635A (zh) * | 2020-05-18 | 2020-07-31 | 支付宝(杭州)信息技术有限公司 | 语义补全方法、装置和电子设备 |
CN111813937A (zh) * | 2020-07-07 | 2020-10-23 | 新华智云科技有限公司 | 基于正能量词典正能量新闻分类方法 |
CN111858894A (zh) * | 2020-07-29 | 2020-10-30 | 网易(杭州)网络有限公司 | 语义缺失的识别方法及装置、电子设备、存储介质 |
CN111984766A (zh) * | 2019-05-21 | 2020-11-24 | 华为技术有限公司 | 缺失语义补全方法及装置 |
CN112132444A (zh) * | 2020-09-18 | 2020-12-25 | 北京信息科技大学 | 一种互联网+环境下文化创新企业知识缺口的识别方法 |
CN112163431A (zh) * | 2020-10-19 | 2021-01-01 | 北京邮电大学 | 一种基于泛条件随机场的中文缺失代词补全方法 |
US10915815B1 (en) * | 2019-01-22 | 2021-02-09 | Institute Of Automation, Chinese Academy Of Sciences | Information processing method, system and device based on contextual signals and prefrontal cortex-like network |
CN112580310A (zh) * | 2020-12-28 | 2021-03-30 | 河北省讯飞人工智能研究院 | 一种缺失字/词的补全方法及电子设备 |
CN112966766A (zh) * | 2021-03-18 | 2021-06-15 | 北京三快在线科技有限公司 | 物品分类方法、装置、服务器及存储介质 |
CN113807416A (zh) * | 2021-08-30 | 2021-12-17 | 国泰新点软件股份有限公司 | 一种模型训练方法、装置、电子设备以及存储介质 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及*** |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060282414A1 (en) * | 2005-06-10 | 2006-12-14 | Fuji Xerox Co., Ltd. | Question answering system, data search method, and computer program |
CN102063508A (zh) * | 2011-01-10 | 2011-05-18 | 浙江大学 | 基于广义后缀树的中文搜索引擎模糊自动补全方法 |
US20130185049A1 (en) * | 2012-01-12 | 2013-07-18 | International Business Machines Corporation | Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation |
CN104462053A (zh) * | 2013-09-22 | 2015-03-25 | 江苏金鸽网络科技有限公司 | 一种文本内的基于语义特征的人称代词指代消解方法 |
CN105589844A (zh) * | 2015-12-18 | 2016-05-18 | 北京中科汇联科技股份有限公司 | 一种用于多轮问答***中缺失语义补充的方法 |
CN105988990A (zh) * | 2015-02-26 | 2016-10-05 | 索尼公司 | 用于汉语中的零指代消解的装置和方法以及模型训练方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN107766320A (zh) * | 2016-08-23 | 2018-03-06 | 中兴通讯股份有限公司 | 一种中文代词消解模型建立方法及装置 |
CN108334487A (zh) * | 2017-07-14 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 缺失语意信息补全方法、装置、计算机设备和存储介质 |
US20180260680A1 (en) * | 2017-02-14 | 2018-09-13 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
CN108563433A (zh) * | 2018-03-20 | 2018-09-21 | 北京大学 | 一种基于lstm自动补全代码的装置 |
US20180288109A1 (en) * | 2017-03-30 | 2018-10-04 | Honda Motor Co., Ltd. | Conference support system, conference support method, program for conference support apparatus, and program for terminal |
-
2018
- 2018-11-13 CN CN201811345695.1A patent/CN109726389B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060282414A1 (en) * | 2005-06-10 | 2006-12-14 | Fuji Xerox Co., Ltd. | Question answering system, data search method, and computer program |
CN102063508A (zh) * | 2011-01-10 | 2011-05-18 | 浙江大学 | 基于广义后缀树的中文搜索引擎模糊自动补全方法 |
US20130185049A1 (en) * | 2012-01-12 | 2013-07-18 | International Business Machines Corporation | Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation |
CN104462053A (zh) * | 2013-09-22 | 2015-03-25 | 江苏金鸽网络科技有限公司 | 一种文本内的基于语义特征的人称代词指代消解方法 |
CN105988990A (zh) * | 2015-02-26 | 2016-10-05 | 索尼公司 | 用于汉语中的零指代消解的装置和方法以及模型训练方法 |
CN105589844A (zh) * | 2015-12-18 | 2016-05-18 | 北京中科汇联科技股份有限公司 | 一种用于多轮问答***中缺失语义补充的方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN107766320A (zh) * | 2016-08-23 | 2018-03-06 | 中兴通讯股份有限公司 | 一种中文代词消解模型建立方法及装置 |
US20180260680A1 (en) * | 2017-02-14 | 2018-09-13 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US20180288109A1 (en) * | 2017-03-30 | 2018-10-04 | Honda Motor Co., Ltd. | Conference support system, conference support method, program for conference support apparatus, and program for terminal |
CN108334487A (zh) * | 2017-07-14 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 缺失语意信息补全方法、装置、计算机设备和存储介质 |
CN108563433A (zh) * | 2018-03-20 | 2018-09-21 | 北京大学 | 一种基于lstm自动补全代码的装置 |
Non-Patent Citations (3)
Title |
---|
LONGYUE WANG ET AL.: "A Novel Approach to Dropped Pronoun Translation", 《ARXIV E-PRINTS,ARXIV:1604.06285》 * |
QINGYU YIN ET AL.: "Deep Reinforcement Learning for Chinese Zero pronoun Resolution June 2018", 《ARXIV E-PRINT:ARXIV:1806.03711》 * |
YAQIN YANG ET AL.: "A-Recovering dropped pronouns from Chinese text messages", 《PROCEEDINGS OF THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 7TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING(SHORT PAPERS)》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10915815B1 (en) * | 2019-01-22 | 2021-02-09 | Institute Of Automation, Chinese Academy Of Sciences | Information processing method, system and device based on contextual signals and prefrontal cortex-like network |
CN111984766B (zh) * | 2019-05-21 | 2023-02-24 | 华为技术有限公司 | 缺失语义补全方法及装置 |
CN111984766A (zh) * | 2019-05-21 | 2020-11-24 | 华为技术有限公司 | 缺失语义补全方法及装置 |
CN110427625A (zh) * | 2019-07-31 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语句补全方法、装置、介质及对话处理*** |
CN110427461B (zh) * | 2019-08-06 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 智能问答信息处理方法、电子设备及计算机可读存储介质 |
CN110427461A (zh) * | 2019-08-06 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 智能问答信息处理方法、电子设备及计算机可读存储介质 |
CN110544222A (zh) * | 2019-09-05 | 2019-12-06 | 重庆瑞信展览有限公司 | 一种视觉传达图像清晰化处理方法和*** |
CN110544222B (zh) * | 2019-09-05 | 2023-01-03 | 重庆瑞信展览有限公司 | 一种视觉传达图像清晰化处理方法和*** |
CN111046907A (zh) * | 2019-11-02 | 2020-04-21 | 国网天津市电力公司 | 一种基于多头注意力机制的半监督卷积网络嵌入方法 |
CN111046907B (zh) * | 2019-11-02 | 2023-10-27 | 国网天津市电力公司 | 一种基于多头注意力机制的半监督卷积网络嵌入方法 |
CN111475635B (zh) * | 2020-05-18 | 2023-04-18 | 支付宝(杭州)信息技术有限公司 | 语义补全方法、装置和电子设备 |
CN111475635A (zh) * | 2020-05-18 | 2020-07-31 | 支付宝(杭州)信息技术有限公司 | 语义补全方法、装置和电子设备 |
CN111813937A (zh) * | 2020-07-07 | 2020-10-23 | 新华智云科技有限公司 | 基于正能量词典正能量新闻分类方法 |
CN111858894A (zh) * | 2020-07-29 | 2020-10-30 | 网易(杭州)网络有限公司 | 语义缺失的识别方法及装置、电子设备、存储介质 |
CN111858894B (zh) * | 2020-07-29 | 2024-06-04 | 网易(杭州)网络有限公司 | 语义缺失的识别方法及装置、电子设备、存储介质 |
CN112132444B (zh) * | 2020-09-18 | 2023-05-12 | 北京信息科技大学 | 一种互联网+环境下文化创新企业知识缺口的识别方法 |
CN112132444A (zh) * | 2020-09-18 | 2020-12-25 | 北京信息科技大学 | 一种互联网+环境下文化创新企业知识缺口的识别方法 |
CN112163431A (zh) * | 2020-10-19 | 2021-01-01 | 北京邮电大学 | 一种基于泛条件随机场的中文缺失代词补全方法 |
CN112580310A (zh) * | 2020-12-28 | 2021-03-30 | 河北省讯飞人工智能研究院 | 一种缺失字/词的补全方法及电子设备 |
CN112580310B (zh) * | 2020-12-28 | 2023-04-18 | 河北省讯飞人工智能研究院 | 一种缺失字/词的补全方法及电子设备 |
CN112966766A (zh) * | 2021-03-18 | 2021-06-15 | 北京三快在线科技有限公司 | 物品分类方法、装置、服务器及存储介质 |
CN113807416A (zh) * | 2021-08-30 | 2021-12-17 | 国泰新点软件股份有限公司 | 一种模型训练方法、装置、电子设备以及存储介质 |
CN113807416B (zh) * | 2021-08-30 | 2024-04-05 | 国泰新点软件股份有限公司 | 一种模型训练方法、装置、电子设备以及存储介质 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN109726389B (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726389A (zh) | 一种基于常识和推理的中文缺失代词补全方法 | |
CN110334354B (zh) | 一种中文关系抽取方法 | |
Yao et al. | An improved LSTM structure for natural language processing | |
Merkx et al. | Language learning using speech to image retrieval | |
Joshi et al. | pair2vec: Compositional word-pair embeddings for cross-sentence inference | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
Gupta et al. | Integration of textual cues for fine-grained image captioning using deep CNN and LSTM | |
Amiri et al. | Learning text pair similarity with context-sensitive autoencoders | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
Li et al. | A method of emotional analysis of movie based on convolution neural network and bi-directional LSTM RNN | |
CN109492223A (zh) | 一种基于神经网络推理的中文缺失代词补全方法 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
Madhfar et al. | Effective deep learning models for automatic diacritization of Arabic text | |
Liu et al. | The referential reader: A recurrent entity network for anaphora resolution | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114881042A (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
CN111950281B (zh) | 一种基于深度学习和上下文语义的需求实体共指检测方法和装置 | |
CN114417891B (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN115577072A (zh) | 一种基于深度学习的短文本情感分析方法 | |
CN113779244B (zh) | 文档情感分类方法、装置、存储介质以及电子设备 | |
Wen | Structure regularized bidirectional recurrent convolutional neural network for relation classification | |
Jobanputra et al. | Parts-of-Speech Tagger for Gujarati Language using Long-short-Term-Memory | |
Van Son et al. | A two-phase plagiarism detection system based on multi-layer long short-term memory networks | |
YV et al. | Image captioning with attention based model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |