CN112069810A - 一种文本填充方法及装置 - Google Patents
一种文本填充方法及装置 Download PDFInfo
- Publication number
- CN112069810A CN112069810A CN202010801195.5A CN202010801195A CN112069810A CN 112069810 A CN112069810 A CN 112069810A CN 202010801195 A CN202010801195 A CN 202010801195A CN 112069810 A CN112069810 A CN 112069810A
- Authority
- CN
- China
- Prior art keywords
- filling
- formula
- text
- sample
- semantic vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 98
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 239000000945 filler Substances 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本填充方法及装置,方法包括:对输入样本进行预处理,得到带有多个空白位置的缺失样本;对所述缺失样本进行编码,得到编码层语义向量;基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。本发明迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
Description
技术领域
本发明主要涉及语言处理技术领域,具体涉及一种文本填充方法及装置。
背景技术
文本填充,即自动填充文本缺失部分,文本填充的目的是利用缺失部分的上下文信息来填充句子或段落的缺失部分,可以用于许多现实世界中的自然语言生成场景,例如填充空白图像,词汇约束句子生成,古代文本恢复,藏头诗生成。目前的文本填充主要基于循环神经网络,但现有的方法存在填充后的文本缺乏语义连贯性和流畅性较差的问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种文本填充方法及装置。
本发明解决上述技术问题的技术方案如下:一种文本填充方法,包括如下步骤:
S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;
S2:对所述缺失样本进行编码,得到编码层语义向量;
S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
本发明解决上述技术问题的另一技术方案如下:一种文本填充装置,包括:
样本处理模块,用于对输入样本进行预处理,得到带有多个空白位置的缺失样本;
缺失样本编码模块,用于对所述缺失样本进行编码,得到编码层语义向量;
向量处理模块,用于基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
填充文本获得模块,用于根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
本发明的有益效果是:通过对输入样本的预处理得到带有多个空白位置的缺失样本,对缺失样本的编码得到编码层语义向量,基于注意力机制算法对编码层语义向量中的多个空白位置的填充得到预测层语义向量和多个用于填充空白位置的填充词,并分别对各个填充至空白位置词的标记得到多个标记填充词,根据多个标记填充词对编码层语义向量和预测层语义向量的损失分析得到填充文本,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
附图说明
图1为本发明一实施例提供的文本填充方法的流程示意图;
图2为本发明一实施例提供的文本填充装置的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明一实施例提供的文本填充方法的流程示意图。
如图1所示,一种文本填充方法,包括如下步骤:
S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;
S2:对所述缺失样本进行编码,得到编码层语义向量;
S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
应理解地,所述填充词的数量与所述空白位置的数量相同。
具体地,解码端利用注意力机制算法捕获所述编码层语义向量并逐一填充缺失空白部分,在填充过程中,解码器会逐一填补空白;对于每个片段的填充,解码器自动回归地填充缺失的标记,对stemplete中已填充的内容进行调整更新。
上述实施例中,通过对输入样本的预处理得到带有多个空白位置的缺失样本,对缺失样本的编码得到编码层语义向量,基于注意力机制算法对编码层语义向量中的多个空白位置的填充得到预测层语义向量和多个用于填充空白位置的填充词,并分别对各个填充至空白位置词的标记得到多个标记填充词,根据多个标记填充词对编码层语义向量和预测层语义向量的损失分析得到填充文本,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S1的过程包括:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
S11:通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
S12:将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
S13:将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
S14:将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
S15:将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
优选地,所述预设第一占位符可以为_m_占位符,所述预设第二占位符可以为<boa>,所述预设第三占位符可以为<eoa>,所述预设第四占位符可以为<EOS>,所述预设第五占位符可以为<BOS>。
应理解地,所述预设第一占位符、所述预设第二占位符和所述预设第三占位符均为多个。
具体地,采用随机屏蔽的方式,用_m_占位符表示空白,并随机替换所述输入样本中的词,其中每个空白缺失的词数是任意的,同时用<boa>和<eoa>分别表示每个空白的开头和结尾,用<EOS>和<BOS>分别作为每个缺失样本的开头和结尾,从而得到所述缺失样本。
应理解地,所述随机指的是随机替换所述输入样本中的词。
上述实施例中,利用预设的占位符对输入样本进行预处理,为之后的处理提供素材,实现了捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S2的过程包括:
S21:利用词嵌入算法对所述缺失样本进行词向量化处理,得到词向量矩阵;
S22:将所述词向量矩阵输入至双向LSTM网络中,得到编码层语义向量。
上述实施例中,利用词嵌入算法对所述缺失样本的词向量化处理得到词向量矩阵;并将所述词向量矩阵输入至双向LSTM网络中得到编码层语义向量,为后续处理提供重要的参数,实现了捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S22的过程包括:
通过第一方程组对所述词向量矩阵进行计算,得到编码层语义向量,所述第一方程组包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通过第一式得到遗忘门输出,所述第一式为:
ft=σ(Wfwt+Ufht-1+bf),
通过第二式得到输入门输出,所述第二式为:
it=σ(Wiwt+Uiht-1+bi),
通过第三式得到输出门输出,所述第三式为:
ot=σ(Wowt+Uoht-1+bo),
通过第四式得到新的记忆信息,所述第四式为:
通过第五式得到更新的LSTM网络单元的记忆信息,所述第五式为:
ct=ft⊙ct-1+it⊙ct,
通过第六式得到编码层语义向量,所述第六式为:
ht=ottanh(ct),
其中,ft为遗忘门输出,it为输入门输出,ot为输出门输出,Wf为遗忘门权重矩阵,Wi为输入门权重矩阵,Wo为输出门权重矩阵,Wc为选择门权重矩阵,bf为遗忘门偏置向量,bi为输入门偏置向量,bo为输出门偏置向量,bc为选择门偏置向量,Uf为遗忘门权重矩阵,Ui为输入门权重矩阵,Uo为输出门权重矩阵,Uc为选择门权重矩阵,为新的记忆信息,ct为更新的LSTM网络单元的记忆信息,ct-1为上一时刻的LSTM网络单元的记忆信息,tanh()为双曲正切函数,σ为sigmoid激活函数,⊙为元素乘积,ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息,ht为编码层语义向量。
具体地,模型使用双向的LSTM网络作为编码器提取文本的语义特征,该网络能够捕获文本的长距离依赖关系。LSTM网络由遗忘门、输入门、选择门和输出门四个相互交互的门单元组成,如下式:
ft=σ(Wfwt+Ufht-1+bf)
it=σ(Wiwt+Uiht-1+bi)
ot=σ(Wowt+Uoht-1+bo)
ct=ft⊙ct-1+it⊙ct1
ht=ottanh(ct)
上式中,ft、it和ot分别为遗忘门输出、输入门输出和输出门输出;Wf、Wi、Wo、Wc、bf、bi、bo、bc为遗忘门、输入门、输出门、选择门的权重矩阵和偏置向量;Uf为遗忘门权重矩阵,Ui为输入门权重矩阵,Uo为输出门权重矩阵,Uc为选择门权重矩阵,ct-1为上一时刻的LSTM网络单元的记忆信息,为新的记忆信息;ct为更新的LSTM网络单元的记忆信息;σ为sigmoid激活函数;⊙为元素乘积;ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息。
上述实施例中,通过第一方程组对所述词向量矩阵的计算得到编码层语义向量,为后续处理提供重要的参数,实现了捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S4过程包括:
S41:对多个所述标记填充词进行计算,得到交叉熵总损失;
S42:根据所述编码层语义向量对所述预测层语义向量进行计算,得到相似度损失;
S43:根据所述交叉熵总损失对所述相似度损失进行计算,得到网络总损失;
S44:判断所述网络总损失是否有变化,若有变化,则返回步骤S3;若无变化,则将对应的文本作为填充文本。
上述实施例中,对多个所述标记填充词的计算得到交叉熵总损失;根据所述编码层语义向量对所述预测层语义向量的计算得到相似度损失;根据所述交叉熵总损失对所述相似度损失的计算得到网络总损失;通过判断所述网络总损失是否有变化得到填充文本,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S41的过程包括:
S411:通过第七式分别对多个所述标记填充词进行计算,得到多个交叉熵损失,所述第七式为:
其中,a∈m,m为标记填充词数目,x′(i,0)为第一个标记填充词,x′(i,oi)为最后一个标记填充词,s′i为一句话缺失的部分;
S412:通过第八式对多个所述交叉熵损失进行计算,得到交叉熵总损失,所述第八式为:
Le=∑La,
其中,a∈m,La为交叉熵损失,Le为交叉熵总损失。
上述实施例中,通过第七式分别对多个所述标记填充词的计算得到多个交叉熵损失,通过第八式对多个所述交叉熵损失的计算得到交叉熵总损失,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S42的过程包括:
通过第九式对所述编码层语义向量对所述预测层语义向量进行计算,得到相似度损失,所述第九式为:
Lc=λcos(Vs,Vt),
其中,Lc为相似度损失,Vs为编码层语义向量,Vt为预测层语义向量,λ为相似度损失函数参数。
应理解地,计算所述编码层语义向量和所述预测层语义向量之间的距离,将其与交叉熵损失函数共同反馈调节预测网络,进而迭代减小语义损失。
上述实施例中,通过第九式对所述编码层语义向量对所述预测层语义向量的计算得到相似度损失,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S43的过程包括:
通过第十式对所述交叉熵总损失和所述相似度损失进行计算,得到网络总损失,所述第十式为:
L=Le+λLc,
其中,L为网络总损失,Le为交叉熵总损失,Lc为相似度损失,λ为相似度损失函数参数。
上述实施例中,通过第十式对所述交叉熵总损失和所述相似度损失的计算得到网络总损失,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
图2为本发明一实施例提供的文本填充装置的模块框图。
可选地,作为本发明的另一个实施例,如图2所示,一种文本填充装置,包括:
样本处理模块,用于对输入样本进行预处理,得到带有多个空白位置的缺失样本;
缺失样本编码模块,用于对所述缺失样本进行编码,得到编码层语义向量;
向量处理模块,用于基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
填充文本获得模块,用于根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
可选地,作为本发明的一个实施例,所述样本处理模块具体用于:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。用于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文本填充方法,其特征在于,包括如下步骤:
S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;
S2:对所述缺失样本进行编码,得到编码层语义向量;
S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
2.根据权利要求1所述的文本填充方法,其特征在于,所述步骤S1的过程包括:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
S11:通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
S12:将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
S13:将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
S14:将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
S15:将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
3.根据权利要求2所述的文本填充方法,其特征在于,所述步骤S2的过程包括:
S21:利用词嵌入算法对所述缺失样本进行词向量化处理,得到词向量矩阵;
S22:将所述词向量矩阵输入至双向LSTM网络中,得到编码层语义向量。
4.根据权利要求3所述的文本填充方法,其特征在于,所述步骤S22的过程包括:
通过第一方程组对所述词向量矩阵进行计算,得到编码层语义向量,所述第一方程组包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通过第一式得到遗忘门输出,所述第一式为:
ft=σ(Wfwt+Ufht-1+bf),
通过第二式得到输入门输出,所述第二式为:
it=σ(Wiwt+Uiht-1+bi),
通过第三式得到输出门输出,所述第三式为:
ot=σ(Wowt+Uoht-1+bo),
通过第四式得到新的记忆信息,所述第四式为:
通过第五式得到更新的LSTM网络单元的记忆信息,所述第五式为:
ct=ft⊙ct-1+it⊙ct,
通过第六式得到编码层语义向量,所述第六式为:
ht=ottanh(ct),
5.根据权利要求1至4任一项所述的文本填充方法,其特征在于,所述步骤S4过程包括:
S41:对多个所述标记填充词进行计算,得到交叉熵总损失;
S42:根据所述编码层语义向量对所述预测层语义向量进行计算,得到相似度损失;
S43:根据所述交叉熵总损失对所述相似度损失进行计算,得到网络总损失;
S44:判断所述网络总损失是否有变化,若有变化,则返回步骤S3;若无变化,则将对应的文本作为填充文本。
8.根据权利要求7所述的文本填充方法,其特征在于,所述步骤S43的过程包括:
通过第十式对所述交叉熵总损失和所述相似度损失进行计算,得到网络总损失,所述第十式为:
L=Le+λLc,
其中,L为网络总损失,Le为交叉熵总损失,Lc为相似度损失,λ为相似度损失函数参数。
9.一种文本填充装置,其特征在于,包括:
样本处理模块,用于对输入样本进行预处理,得到带有多个空白位置的缺失样本;
缺失样本编码模块,用于对所述缺失样本进行编码,得到编码层语义向量;
向量处理模块,用于基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
填充文本获得模块,用于根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
10.根据权利要求9所述的文本填充装置,其特征在于,所述样本处理模块具体用于:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010801195.5A CN112069810A (zh) | 2020-08-11 | 2020-08-11 | 一种文本填充方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010801195.5A CN112069810A (zh) | 2020-08-11 | 2020-08-11 | 一种文本填充方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112069810A true CN112069810A (zh) | 2020-12-11 |
Family
ID=73662639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010801195.5A Pending CN112069810A (zh) | 2020-08-11 | 2020-08-11 | 一种文本填充方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069810A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613282A (zh) * | 2020-12-31 | 2021-04-06 | 桂林电子科技大学 | 一种文本生成方法、装置及存储介质 |
CN112818098A (zh) * | 2021-01-29 | 2021-05-18 | 平安国际智慧城市科技股份有限公司 | 基于知识库的对话生成方法、装置、终端及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
-
2020
- 2020-08-11 CN CN202010801195.5A patent/CN112069810A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
Non-Patent Citations (2)
Title |
---|
SHUMING MA 等: "Improving Semantic Relevance for Sequence-to-Sequence Learning of Chinese Social Media Text Summarization", 《ARXIV:1706.02459V1》 * |
WANRONG ZHU 等: "Text Infilling", 《ARXIV:1901.00158V2》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613282A (zh) * | 2020-12-31 | 2021-04-06 | 桂林电子科技大学 | 一种文本生成方法、装置及存储介质 |
CN112818098A (zh) * | 2021-01-29 | 2021-05-18 | 平安国际智慧城市科技股份有限公司 | 基于知识库的对话生成方法、装置、终端及存储介质 |
CN112818098B (zh) * | 2021-01-29 | 2023-11-24 | 深圳平安智慧医健科技有限公司 | 基于知识库的对话生成方法、装置、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lopes et al. | A learned representation for scalable vector graphics | |
US20220309762A1 (en) | Generating scene graphs from digital images using external knowledge and image reconstruction | |
CN110795556A (zh) | 一种基于细粒度***式解码的摘要生成方法 | |
CN111401375A (zh) | 文本识别模型训练方法、文本识别方法、装置及设备 | |
CN111161740A (zh) | 意图识别模型训练方法、意图识别方法以及相关装置 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN113435594B (zh) | 安防检测模型训练方法、装置、设备及存储介质 | |
CN112926344B (zh) | 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质 | |
Szeto et al. | A temporally-aware interpolation network for video frame inpainting | |
CN112069810A (zh) | 一种文本填充方法及装置 | |
CN112818670A (zh) | 可分解变分自动编码器句子表示中的切分语法和语义 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN112069809B (zh) | 一种缺失文本生成方法及*** | |
CN111428727A (zh) | 基于序列变换纠正及注意力机制的自然场景文本识别方法 | |
Mattick et al. | SmartPatch: improving handwritten word imitation with patch discriminators | |
CN116993864A (zh) | 一种图像生成方法、装置、电子设备及存储介质 | |
CN110532560A (zh) | 一种生成文本标题的方法及计算设备 | |
CN112749639B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN112256953B (zh) | 查询改写方法、装置、计算机设备和存储介质 | |
CN114091475A (zh) | 对话文本生成方法、装置、电子设备及存储介质 | |
CN110109994B (zh) | 包含结构化和非结构化数据的汽车金融风控*** | |
Gabajiwala et al. | Comprehensive review of various optimization algorithms for image captioning | |
Zheng et al. | General framework for reversible data hiding in texts based on masked language modeling | |
Yang et al. | Self-Supervised Cross-Language Scene Text Editing | |
US20240177507A1 (en) | Apparatus and method for generating text from image and method of training model for generating text from image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201211 |