CN112052649B - 文本生成方法、装置、电子设备及存储介质 - Google Patents
文本生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112052649B CN112052649B CN202011087291.4A CN202011087291A CN112052649B CN 112052649 B CN112052649 B CN 112052649B CN 202011087291 A CN202011087291 A CN 202011087291A CN 112052649 B CN112052649 B CN 112052649B
- Authority
- CN
- China
- Prior art keywords
- word
- target
- words
- text
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012545 processing Methods 0.000 claims description 65
- 238000000605 extraction Methods 0.000 claims description 40
- 230000011218 segmentation Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 30
- 238000012549 training Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000013507 mapping Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 235000000131 Cercis siliquastrum Nutrition 0.000 description 6
- 240000000024 Cercis siliquastrum Species 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例基于人工智能(Artificial Intelligence,AI)中的自然语言处理技术,公开了一种文本生成方法、装置、电子设备以及存储介质,该方法包括:获取初始字词;在目标词典中对初始字词进行关联字词查找,得到候选关联字词集合;从候选关联字词集合中选取至少两个目标关联字词,并基于目标词典对至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到每个目标关联字词对应的查找结果;根据初始字词、每个目标关联字词以及每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。采用本发明实施例,可根据输入的字词生成大量文本。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种文本生成方法、装置、电子设备及存储介质。
背景技术
文本生成是人工智能领域中自然语言处理领域的一个重要研究方向,是指通过计算机实现高质量自然语言文本的自动生成。文本生成在很多领域有重要的意义,例如在进行语音识别、人机交互研究时,常常需要大量的自然语言文本来对相关的神经网络模型进行训练。因此,在文本生成领域中如何根据输入的字词生成大量文本成为当前研究的热点问题。
发明内容
本发明实施例提供一种文本生成方法、装置、电子设备以及存储介质,可根据输入的字词生成大量文本。
一方面,本发明实施例提供了一种文本生成方法,所述文本生成方法包括:
获取初始字词;
在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合;
从所述候选关联字词集合中选取至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果;
根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
一方面,本发明实施例提供了一种文本生成装置,其特征在于,包括:
获取单元,用于获取初始字词;
处理单元,用于在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合;
所述处理单元,还用于从所述候选关联字词集合中选取至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果;
所述处理单元,还用于根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
一方面,本发明实施例提供了一种电子设备,其特征在于,包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行:
获取初始字词;
在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合;
从所述候选关联字词集合中选取至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果;
根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
一方面,本发明实施例提供了一种计算机存储介质,其特征在于所述计算机存储介质上存储计算机程序指令,所述计算机程序指令被处理器执行,用于执行:
获取初始字词;
在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合;
从所述候选关联字词集合中选取至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果;
根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
一方面,本发明实施例提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;电子设备的处理器从所述计算机存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述电子设备执行上述文本生成方法。
在本发明实施例中,电子设备通过在目标词典中对初始字词进行关联字词查找,得到至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果,进一步的根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本。在上述文本生成过程中,对同一个初始字词进行关联字词查找,可以获取到至少两个目标关联字词,并且分别基于至少两个目标关联字词中每个目标关联字词对应的查找结果均可以生成一个对应的文本,提供了一种新的文本生成方式,实现了基于一个初始字词可以生成至少两个文本,从而提高了文本生成效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的一种文本生成模型的结构示意图;
图1b是本发明实施例提供的一种文本特征编码层的结构示意图;
图1c是本发明实施例提供的又一种文本特征编码层的结构示意图;
图2是本发明实施例提供的一种文本生成方法的流程示意图;
图3是本发明实施例提供的一种生成目标关联字词的示意图;
图4a是本发明实施例提供的另一种文本生成方法的流程示意图;
图4b是本发明实施例提供的一种文本生成的分步流程示意图;
图5是本发明实施例提供的又一种文本生成方法的流程示意图;
图6是本发明实施例提供的一种获取目标词典的示意图;
图7是本发明实施例提供的一种获取字词样本集合的示意图;
图8是本发明实施例提供的一种文本生成装置的结构示意图;
图9是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例主要涉及人工智能中的自然语言处理技术领域,所述自然语言处理是人工智能领域的一个重要研究方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。文本生成是自然语言处理技术中关键内容之一。基于此,本发明实施例提供了一种文本生成方案,具体实现中,电子设备获取到初始字词后,在预先得到的目标词典中对初始字词进行关联字词查找,得到候选关联字词集合,并从候选关联字词集合中选取至少两个目标关联字词,然后基于目标词典对该两个目标关联字中的每个目标关联字词进行递归关联字词查找,得到每个目标关联字词对应的查找结果,并根据初始字词、每个目标关联字词以及每个目标关联字词对应的查找结果生成至少两个文本。
上述文本生成方案可以是电子设备调用文本生成模型执行的,参见图1a,为本发明实施例提供的一种文本生成模型的结构示意图。在图1a所述的文本生成模型中可包括文本特征提取模块101、归一化指数输出层(softmax输出层)102、随机模块103和训练模块104,其中训练模块104在模型训练时使用,随机模块103在文本生成模型训练完成后的应用过程中使用。
文本特征提取模块101用于对输入的字词进行特征提取;softmax输出层102与文本特征提取模块101相连,softmax输出层102用于对经过文本特征提取模块处理后的数据进行指数归一化处理;在对文本生成模型进行训练时,训练模块104用于损失函数处理;在文本生成模型使用时,softmax输出层102经过文本特征提取模块处理后的数据进行指数归一化处理后,得到在输入的字词下一个可能出现的多个字词以及每个字词出现的概率,随机模块103用于从多个字词中选取概率较大的N个字词,并从N个字词中随机选取一个字词作为接着在输入的字词后一个出现的字词。
在一个实施例中,所述文本特征提取模块101包括嵌入层(embedding层)1011和文本特征编码层1012,其中,embedding层为一个连续的向量空间,可以把输入至embedding层的字词映射为一个向量,以便于计算字词之间的关系;文本特征编码层1012可以是能够处理时序序列的编码结构,例如循环神经网络(Recurrent Neural Network,RNN)层、长短期记忆网络(Long Short-Term Memory,LSTM)层、循环门单元(Gate Recurrent Unit,GRU)层或者transformer编码层。
在一个实施例中,embedding层1011所属类型由文本特征编码层1012决定,例如当文本特征编码层为RNN层时,embedding层为文字型嵌入层(word embedding层);当文本特征编码层为transformer编码层时,embedding层为文字型嵌入(word embedding)和位置型嵌入(position embedding)的混合层。
在一个实施例中,当文本特征编码层为RNN层时,文本特征编码层的结构可如图1b所示,RNN层包括输入层、隐藏层以及输出层,其中,xt为输入数据、A为隐藏层、ht为输出数据,电子设备,可以根据训练时的数据量以及算力来确定隐藏层中隐藏单元的个数。
在一个实施例中,当文本特征编码层为transformer编码层时,文本特征编码层的结构可如图1c所示,transformer编码层包括自注意self-Attention层、残差和归一化处理Add&Normalize层以及全连接前馈Feed Forward NN层。其中,电子设备可以根据训练时的数据量以及算力来确定transformer编码层的个数。
基于上述文本生成模型以及文本生成方案,本发明实施例提供了一种文本生成方法。参见图2,为本发明实施例提供的一种文本生成方法的流程示意图。图2所示的文本生成方法可由电子设备执行,具体可由电子设备的处理器执行,所述电子设备可以为计算机。图2所示的文本生成方法可包括如下步骤:
S201、获取初始字词。
在一个实施例中,初始字词可以包括字和词中的任意一种或多种。所述初始字词可以是用户输入的任意一个字词;或者,电子设备预先设置一个字词库,所述获取初始字词是指电子设备按照顺序从预先设置的字词库中获取未被选择的字词。
在一个实施例中,所述获取目标字词可以是从目标词典中获取到的,所述目标词典可以是由用于训练的初始文本进行分词处理后得到的字词组成的。可选的,目标词典中还可以包括每个字词对应的标识信息,一个字词对应的标识信息用于唯一标记该字词,即字词与字词对应的标识信息一一对应。例如,字词对应的标识信息可以指每个词在字词中的排列序号,比如0,1,2等等。每个字词在词典中的排列序号可以是根据每个词在初始文本中的字词确定的。
基于上述描述,所述获取初始字词可以指获取初始字词,或者,所述获取初始字词还可以包括还可以包括获取初始字词对应的标识信息。
S202、在目标词典中对初始字词进行关联字词查找得到候选关联字词集合。
在一个实施例中,在目标词典中对初始字词进行关联字词查找是为了确定接着初始字词后面出现的下一个字词,也就是说候选关联字词集合中至少包括两个可能在初始字词后出现的字词。
可选的,步骤S202可以是电子设备调用文本生成模型执行的,具体实现中,所述在目标词典中对初始字词进行关联字词查找,得到候选关联字词集合,包括:对所述初始字词和所述目标词典中的字词进行特征提取处理,得到与所述初始字词相匹配的多个字词以及所述多个字词中每个字词与所述初始字词之间的关联度;并按照所述关联度由高到低的顺序从所述多个字词中选取N个字词,并将所述N个字词和所述N个字词中每个字词与所述初始字词之间的关联度组成所述候选关联字词集合,其中N为大于等于1的整数。其中,每个字词与所述初始字词之间的关联度用于反映该字词作为在初始字词后一个字词的可能性,所述关联度可以用概率表示,某个字词与初始字词之间的概率越大表示该字词作为初始字词后一个字词的可能性越大,某个字词与初始字词之间的概率越小表示该字词作为初始字词后一个字词的可能性越小。
由前述可知,所述文本生成模型包括文本特征提取模块和随机模块,基于此,所述对所述初始字词和所述目标词典中的字词进行特征提取处理,得到与所述初始字词相匹配的多个字词以及所述多个字词中每个字词与所述初始字词之间的关联度可以是调用所述文本特征提取模块执行的;所述按照所述关联度由高到低的顺序从所述多个字词中选取N个字词,并将所述N个字词和所述N个字词中每个字词与所述初始字词之间的关联度组成所述候选关联字词集合可以是调用所述随机模块执行的。
其中,调用所述文本特征提取模块对所述初始字词和所述目标词典中的字词进行特征提取处理,得到与所述初始字词相匹配的多个字词以及所述多个字词中每个字词与所述初始字词之间的关联度,可以包括:调用所述文本特征提取模块对所述初始字词对应的标识信息和所述目标词典中的字词对应的标识信息进行特征提取处理,得到与所述初始字词对应的标识信息相匹配的多个字词对应的标识信息以及所述多个字词对应的标识信息中每个字词对应的标识信息与所述初始字词对应的标识信息之间的关联度。
具体实现中,如图3所示,调用文本特征提取模块中的embedding层对初始字词对应的标识信息进行字词特征提取处理,把所述初始字词对应的标识信息映射为字词特征向量;再把所述字词特征向量通过文本特征编码层进行文本特征提取处理,得到文本特征向量,所述文本特征向量中的向量元素为目标词典中的字词对应的标识信息;然后经过softmax输出层对所述文本特征向量进行指数归一化处理,得到由目标词典中的字词对应的标识信息的概率组成的概率列表;然后根据所述目标词典中的字词对应的标识信息的概率确定目标词典中的字词对应的标识信息与初始字词对应的标识信息之间的关联度;最后得到与所述初始字词对应的标识信息相匹配的多个字词对应的标识信息以及所述多个字词对应的标识信息中每个字词对应的标识信息与所述初始字词对应的标识信息之间的关联度,其中所述多个字词的标识信息为上述目标词典中的字词对应的标识信息。
可选的,根据所述目标词典中的字词对应的标识信息的概率确定目标词典中的字词对应的标识信息与初始字词对应的标识信息之间的关联度,可以指将所述概率作为关联度;或者,对所述概率进行预设运算,将预设运算的结果作为关联度。
在一个实施例中,调用随机模块按照所述关联度由高到低的顺序从所述多个字词中选取N个字词,并将所述N个字词和所述N个字词中每个字词与所述初始字词之间的关联度组成所述候选关联字词集合,可以包括:按照所述关联度由高到低的顺序从所述多个字词对应的标识信息中选取N个字词对应的标识信息,并将所述N个字词对应的标识信息和所述N个字词对应的标识信息中每个字词对应的标识信息与所述初始字词对应的标识信息之间的关联度组成所述候选关联字词集合。
具体实现中,调用文本生成模型中的随机模块按照关联度的大小对上述多个字词对应的标识信息进行降序排列,并选取前N个标识信息以及每个标识信息对应的关联度,组成所述候选关联字词集合。
在其他实施例中,假设将多个字词对应的标识信息设为数组,所述数组下标从0开始按照从小到大的顺序进行标号,则所述按照所述关联度由高到低的顺序从所述多个字词对应的标识信息中选取N个字词对应的标识信息,并将所述N个字词对应的标识信息和所述N个字词对应的标识信息中每个字词对应的标识信息与所述初始字词对应的标识信息之间的关联度组成所述候选关联字词集合,还可以包括:调用文本生成模型中的随机模块按照关联度的大小对上述多个字词对应的标识信息的数组下标进行降序排列,并不改变所述多个字词对应的标识信息的位置,并选取前N个数组下标以及每个数组下标对应的关联度,组成所述候选关联字词集合。
S203、从候选关联字词集合中选取至少两个目标关联字词。
在一个实施例中,从所述候选关联字词集合中选取至少两个目标关联字词可以是电子设备调用文本生成模型中的随机模块执行的。具体实现中,所述调用文本生成模型中的随机模块从候选关联字词集合中选取至少两个目标关联字词,可包括:通过运行随机模块中的随机函数从候选关联字词集合中选取至少两个目标关联字词,其中,随机函数可以包括rand函数或者其他任意一种随机函数。
在一个实施例中,所述通过运行随机模块中的随机函数从候选关联字词集合中选取至少两个目标关联字词,包括:在随机模块中运行随机函数rand(0,M),随机选取0~M中的整数i,其中M=N-1,然后选取候选关联字词集合中的第i+1个字词,并把该字词确定为至少两个目标关联字词中的第一目标关联字词。若所述候选关联字词集合为字词对应的标识信息以及每个字词对应的关联度组成的集合,则所述选取候选关联字词集合中的第i+1个字词为选取所述候选关联字词集合中的第i+1个字词对应的标识信息,并把该标识信息映射为字词;若所述候选关联字词集合为数组下标以及每个数组下标对应的关联度组成的集合,则所述选取候选关联字词集合中的第i+1个字词为选取所述候选关联字词集合中的第i+1个数组下标,并把该数组下标映射为字词。对同一个初始字词在目标词典中进行关联字词查找时,在随机模块中运行随机函数rand(0,M),随机选取0~M中的整数j,其中M=N-1,然后选取候选关联字词集合中的第j+1个字词,并把该字词确定为至少两个目标关联字词中的第二目标关联字词,所述i和j可以相同,也可以不相同。
S204、基于目标词典对至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到每个目标关联字词对应的查找结果。
在一个实施例中,基于目标词典对至少两个目标关联字词中每个目标关联字词进行递归关联字词查找是为了确定在每个目标关联字词之后会出现的字词,其中单次递归关联字词查找是为了确定当前字词的下一个字词,每个目标关联字词对应的查找结果为在每个目标关联字词之后出现的字词组成的集合。
可选的,步骤S204可以是电子设备调用文本生成模型执行的,具体实现中,以至少两个目标关联字词中包括的第一目标关联字词为例展开介绍,则所述基于目标词典对至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到每个目标关联字词对应的查找结果,包括:
将所述第一目标关联字词确定为基准字词,并在所述目标词典中对所述基准字词进行关联字词查找,得到所述基准字词对应的关联字词子集;从所述关联字词子集中获取目标候选关联字词;若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度小于或等于长度阈值,则将所述目标候选关联字词添加至所述第一目标关联字词对应的查找结果中;采用所述目标候选关联字词更新所述基准字词,并执行在所述目标词典中对所述基准字词进行关联字词查找的步骤;若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度大于长度阈值,则停止递归。
其中,所述关联字词子集包括与所述基准字词最匹配的N个字词以及所述N个字词中每个字词与所述基准字词之间的关联度;所述候选关联字词为基准字词的下一个字词,是从所述关联字词子集中选取的任意一个字词。在所述目标词典中对所述基准字词进行关联字词查找得到目标候选关联字词与在目标词典中对初始字词进行关联字词查找,得到目标关联字词的方法相同,在此不做赘述。
在一种实施方式中,所述长度阈值是指采用文本生成模型生成的文本的最大长度减2,即为将所述最大长度的文本去除初始字词和第一目标关联字词后的文本长度,所述长度阈值可以是用户确定的;或者,所述长度阈值也可以是终端按照一定的规则生成的。
S205、根据初始字词、每个目标关联字词以及每个目标关联字词对应的查找结果生成至少两个文本。
在一个实施例中,所述至少两个文本中的每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。具体实现中,可以将初始字词、一个目标关联字词、以及一个目标关联字词对应的查找结果中的字词按被获取到的先后顺序组合,得到一个文本。例如,获取到的初始字词为“我”,一个目标关联字词为“爱”,该目标关联字词的查找结果分别为“祖国”“和”“你们”,那么根据该初始字词得到的文本可以为“我爱祖国和你们”。
在一个实施例中,电子设备将生成的至少两个文本添加至训练样本集合中,以根据所述至少两个文本对语音识别模型进行训练。
在本发明实施例中,电子设备通过在目标词典中对初始字词进行关联字词查找,得到至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果,进一步的根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本。在上述文本生成过程中,对同一个初始字词进行关联字词查找,可以获取到至少两个目标关联字词,并且分别基于至少两个目标关联字词中每个目标关联字词对应的查找结果均可以生成一个对应的文本,提供了一种新的文本生成方式,实现了基于一个初始字词可以生成至少两个文本,从而提高了文本生成效率。
基于图2所示的文本生成方法,本发明实施例提供了另一种文本生成方法。参见图4a,为本发明实施例提供的另一种文本生成方法的流程示意图,假设目标词典包括多个字词以及所述多个字词中每个字词对应的标识信息,比如对于任意一个字词,在目标词典中表示为(字词,字词对应的标识信息)。假设目标词典中包括的字词包括“我”,“你们”,“爱”,“祖国”以及“和”,则目标词典可以为:W1={(我,0),(你们,1),(爱,2),(祖国,3),(和,4)}。假设初始字词为:“我”,下面结合图4a和图4b具体介绍文本生成:
获取初始字词“我”以及初始字词“我”对应的标识信息“0”;将标识信息“0”输入至文本生成模型中的文本特征提取模块进行文本特征提取处理,得到“0”对应的文本特征向量;通过softmax输出层对该文本特征向量进行指数归一化处理,得到由目标词典中的字词对应的标识信息的概率组成的概率列表,即得到标识信息“0”、“1”、“2”、“3”、“4”对应的概率列表L1,假设标识信息0-4对应的概率分别为P0、P1、P2、P3以及P4,则所述概率列表L1可以表示为:[P0,P1,P2,P3,P4];若将上述概率列表L1中标识信息对应的概率确定为该标识信息与初始字词之间的关联度,则将所述概率列表L1中的各个概率输入至随机模块,随机模块按照所述概率列表中的各个概率的大小顺序对上述标识信息进行降序排列,并选取前N个标识信息以及每个标识信息所对应的概率组成候选关联字词集合。
假设所述概率列表中概率大小关系为:P4>P2>P1>P0>P3,N=3,则候选关联字词集合为:{(4,P4),(2,P2),(1,P1)};在随机模块中运行随机函数rand(0,M),随机选取0~M中的整数i,其中M=N-1,然后选取候选关联字词集合中的第i+1个标识信息,并把该标识信息映射为目标词典中的字词,即在随机模块中运行随机函数rand(0,2),随机选取0~2中的整数i,假设i=1,则选取候选关联字词集合中的第2个标识信息“2”,并把该标识信息“2”映射为目标词典中的字词“爱”,并把该字词“爱”确定为第一目标关联字词。
基于所述目标词典对第一目标关联字词进行递归关联字词查找,得到所述第一目标关联字词对应的查找结果,即将上述得到的第一目标关联字词“爱”确定为基准字词,并将所述基准字词“爱”对应的标识信息“2”输入至文本生成模型中的文本特征提取模块进行文本特征提取处理,得到“2”对应的文本特征向量;通过softmax输出层对该文本特征向量进行指数归一化处理,得到由目标词典中的字词对应的标识信息的概率组成的概率列表L2,假设标识信息0-4对应的概率分别为P0、P1、P2、P3以及P4,则所述概率列表L2可以表示为:[P0,P1,P2,P3,P4];若将上述概率列表L2中标识信息对应的概率确定为该标识信息与基准字词之间的关联度,则将所述概率列表L2中的各个概率输入至随机模块,随机模块按照所述概率列表中的各个概率的大小对上述标识信息进行降序排列,并选取前N个标识信息以及每个标识信息所对应的概率组成关联字词子集。
假设所述概率列表中概率大小关系为:P3>P1>P4>P2>P0,则关联字词子集为:{(3,P3),(1,P1),(4,P4)};在随机模块中运行随机函数rand(0,M),随机选取0~M中的整数i,其中M=N-1,然后选取关联字词子集中的第i+1个标识信息,并把该标识信息映射为目标词典中的字词,即在随机模块中运行随机函数rand(0,2),随机选取0~2中的整数i,假设i=0,则选取关联字词子集中的第1个标识信息“3”,并把该标识信息“3”映射为目标词典中的字词“祖国”,并把该字词确定为目标候选关联字词。
判断由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度与长度阈值的关系,若所述文本的长度小于或等于长度阈值,则将所述目标候选关联字词添加至所述第一目标关联字词对应的查找结果中,并采用所述目标候选关联字词更新所述基准字词,然后执行在所述目标词典中对所述基准字词进行关联字词查找的步骤;若所述文本的长度大于长度阈值,则停止递归。
若在本实施例中,假设长度阈值为4,因为由上述得到的目标候选关联字词“祖国”和历史确定出的基准字词“爱”组成的文本的长度为2,所以将该目标候选关联字词“祖国”添加至第一目标关联字词“爱”对应的查找结果中,此时查找结果为{祖国};并采用该目标候选关联字词“祖国”更新基准字词“爱”,然后进行第二次递归,递归操作在本实施例中不再做赘述。
如果进行第二次递归所得的目标候选关联字词为“和”,第三次递归所得的目标候选关联字词为“你们”,第四次递归所得到的目标候选关联字词为“和”,此时由目标候选关联字词“和”和历史确定出的基准字词“爱”“祖国”“和”“你们”组成的文本的长度为5,则停止递归,并且不把第四次递归所得到的目标候选关联字词“和”添加至查找结果,此时的查找结果为{祖国,和,你们}。
根据初始字词“我”、第一目标关联字词“爱”以及第一目标关联字词对应的查找结果{祖国,和,你们}生成文本,所述文本为“我爱祖国和你们”。
由前述可知,上述第一目标关联字词是基于随机模块从初始字词对应的候选关联字词集合中随机选取的,上述第一目标关联字词对应的查找结果中的目标候选关联字词是基于随机模块从基准字词对应的关联字词子集中随机选取的;然后根据初始字词、第一目标关联字词以及第一目标关联字词对应的查找结果生成了一个文本。如果生成一个文本后,未检测到停止生成文本的指令,则电子设备可以继续基于随机模块从初始字词对应的候选关联字词集合中随机选取初始字词的第二目标关联字词。
例如,由上述可知,初始字词对应的候选关联字词集合为:{(4,P4),(2,P2),(1,P1)};在随机模块中运行随机函数rand(0,M),随机选取0~M中的整数j,其中M=N-1,然后选取候选关联字词集合中的第j+1个标识信息,并把该标识信息映射为目标词典中的字词,即在随机模块中运行随机函数rand(0,2),随机选取0~2中的整数j,假设j=0,则选取候选关联字词集合中的第1个标识信息“4”,并把该标识信息“4”映射为目标词典中的字词“和”,并把该字词“和”确定为第二目标关联字词。
进而基于目标词典对所述第二目标关联字词进行递归关联字词查找,得到第二目标关联字词对应的查找结果,并根据初始字词、第二目标关联字词以及第二目标关联字词对应的查找结果生成了另一个文本。例如,假设第二目标关联字词对应的查找结果为{你们,爱,祖国},则根据初始字词“我”、第二目标关联字词“和”以及第二目标关联字词对应的查找结果{你们,爱,祖国}生成另一个文本,所述文本为“我和你们爱祖国”。
由前述可知,由于随机模块的存在使得利用同一个初始字词进行文本生成时,可以生成至少两个不同的文本。上述只是以生成两个文本为例进行描述,在实际应用中,基于随机模块从初始字词对应的候选关联字词集合中选取目标关联字词可以有多种选择;基于目标关联字词进行递归关联字词查找时,每次递归得到的目标候选关联字词都是基于随机模块从关联字词子集中随机选取的,同样所述目标候选关联字词也可以有多种选择,即所述目标关联字词对应的查找结果也可以有多种选择;当采用同一个初始字词,采用不同的目标关联字词和不同的查找结果生成文本时,所生成的文本不同,即可以生成大量文本。例如:候选关联字词集合和关联字词子集大小为3,设置长度阈值为4,则最多可以生成81(34)个文本。
值得注意的是,上述实施例中随机模块中采用的方法,为随机模块对目标关联字词以及目标候选关联字词实现随机选取的可选方法,并非唯一方法,应当明白的是,能够实现对目标关联字词以及目标候选关联字词进行随机选取的方法都应该包括在本发明实施例的保护范围内。
在本发明实施例中,电子设备通过在目标词典中对初始字词进行关联字词查找,得到至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果,进一步的根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本。在上述文本生成过程中,对同一个初始字词进行关联字词查找,可以获取到至少两个目标关联字词,并且分别基于至少两个目标关联字词中每个目标关联字词均可以生成一个对应的文本,改变了文本生成方式,实现了基于一个初始字词可以生成至少两个文本,从而提高了文本生成效率。
基于上述文本生成模型以及文本生成方法实施例,本发明实施例提供了又一种文本生成方法,该方法通过训练上述文本生成模型并利用该模型进行文本生成。参见图5,为本发明实施例提供的又一种文本生成方法的流程示意图。图5所示的文本生成方法可由电子设备执行,具体可由电子设备的处理器执行,所述电子设备可以为计算机。图5所示的文本生成方法可包括如下步骤:
S501、获取目标词典。
在一个实施例中,所述目标词典可以是由多个字以及每个字对应的标识信息组成的,也可以是由多个词以及每个词对应的标识信息组成的,或者可以是由多个字和多个词以及每个字对应的标识信息和每个词对应的标识信息组成的。由于用字对文本生成模型进行训练,没有充分利用自然语言的特点,导致生成的文本可读性和连贯性差,并且文本中的句子结构可以由字和词共同构成,因此本发明实施例中,优选的目标词典可以由多个字和多个词以及每个字对应的标识信息和每个词对应的标识信息组成的,其中一个字词对应的标识信息用于唯一标记该字词,即字词与字词对应的标识信息一一对应。
在一个实施例中,目标词典可以是用户指定的词典;或者,可以是由用于训练的初始文本进行分词处理后得到的字词,以及每个字词对应的标识信息组成的,其中,每个字词对应的标识信息可以是基于相应字词在分词处理后的初始文本中的词频确定的。
可选的,当目标词典是由用于训练的初始文本进行分词处理后得到的字词,以及每个字词对应的标识信息组成时,步骤S501具体实现,包括:获取初始文本;按照目标词库对初始文本进行分词处理;根据分词处理后的初始文本中包括的多个字词构建目标词典。
在一个实施例中,所述初始文本的数量可以为一个或多个,所述初始文本可以指任意形式的文本,比如初始文本可以包括:中文字符、英文字符、数字字符、标点符号、以及其它特殊字符。例如,初始文本可以为:我愛树木&他爱鲜花他爱春雨*。
可选的,在获取到初始文本之后,在按照目标词库对初始文本进行分词处理之前,还可以对初始文本进行格式统一处理。所述对初始文本进行格式统一处理可以包括:对初始文本进行保留合法化字符操作,可以保留中文字符、英文字符、数字字符,也可以保留标点符号;然后将保留了合法化字符的初始文本进行格式调整处理,将所述保留了合法化字符的初始文本中的数字转换成英文数字、英文字符大写转小写、中文字符繁体转简体;然后将格式调整之后的初始文本进行文本过滤,过滤掉字符数少于指定数目的行、过滤掉空行或者文本中重复的行,得到格式统一后的初始文本。假设,获取到的初始文本为:我愛树木&他爱鲜花他爱春雨*,则格式统一后的初始文本为:我爱树木他爱鲜花他爱春雨。
在一个实施例中,在得到格式统一后的初始文本后,所述按照目标词库对初始文本进行分词处理,还包括:按照目标词库对格式统一后的初始文本进行分词处理。其中,所述目标词库可以包括大量的词,以及每个词对应的词频;所述进行分词处理可以利用分词软件进行分词处理。假设,格式统一后的初始文本为:我爱树木他爱鲜花他爱春雨,则所述格式统一后的初始文本经过分词处理后可以得到:我爱树木他爱鲜花他爱春雨。
在一个实施例中,所述根据分词处理后的初始文本中包括的多个字词构建目标词典,可以包括:将所述分词处理后的初始文本中包括的多个字词进行词频统计,然后对多个字词按照词频从大到小的顺序进行排序并编号,把字词对应的编号确定为该字词对应的标识信息,根据所述多个字词以及每个字词对应的标识信息构建目标词典。
在一个实施例中,所述对多个字词按照词频从大到小的顺序进行排序并编号,可以是以特定的编号规则对多个字词编号,例如,可以是从特定的数值开始按照数值增大的方向进行编号,或者,可以是从特定的数值开始按照数值减小的方向进行编号。
在一个实施例中,对多个字词按照词频从大到小的顺序进行排序并编号时,如果存在词频相同的字词,则可以按照所述字词在初始文本中首次出现的顺序从前到后进行排序并编号。
举例来说,如图6所示,为本发明实施例提供的一种获取目标词典的示意图。假设分词处理后的初始文本为:我爱树木他爱鲜花他爱春雨;将上述分词处理后的初始文本中的多个字词进行词频统计并按照词频从大到小的顺序进行排序,得到排序后的多个字词为:爱、他、我、树木、鲜花、春雨,将上述多个字词从0开始按照数值增大的方向进行编号得到字词以及字词的编号,表示为:“爱,0”、“他,1”、“我,2”“树木,3”、“鲜花,4”、“春雨,5”;把每个字词对应的编号确定为该字词对应的标识信息,并根据所述多个字词以及每个字词对应的标识信息构建目标词典,则目标词典可以表示为{(爱,0),(他,1),(我,2),(树木,3),(鲜花,4),(春雨,5)}。
S502、获取字词样本集合。
在一个实施例中,字词样本集合可以包括至少一个字词样本以及每个字词样本对应的标注关联字词,其中一个字词样本对应的标注关联字词为该字词样本的下一个字词样本,即第K个字词样本对应的标注关联字词为第K+1个字词样本,K为小于字词样本集合中字词数目的正整数。
在一个实施例中,字词样本集合中的字词样本可以是上述分词处理后的初始文本包括的字词对应的标识信息。
在一个实施例中,字词样本集合可以是用户指定的字词样本集合;或者,可以是将上述分词处理后的初始文本进行分割,得到的分割后文本包括的字词对应的标识信息的集合。
可选的,当字词样本集合是将上述分词处理后的初始文本进行分割,得到的分割后文本包括的字词对应的标识信息的集合时,步骤S502具体实现,包括:按照目标文本长度将分词处理后的初始文本进行分割,得到分割后文本;在所述目标词典中获取所述分割后文本包括的字词对应的标识信息,并根据所述分割后文本包括的字词对应的标识信息生成字词样本集合。
在一个实施例中,所述目标文本长度可以是用户确定的,或者,所述目标文本长度也可以是终端按照一定的规则生成的。
示例性的,如图7所示,为本发明实施例提供的一种获取字词样本集合的示意图。假如上述分词处理后的初始文本为:我爱树木他爱鲜花他爱春雨,目标文本长度为3,则电子设备按照目标文本长度将上述分词处理后的初始文本进行分割,得到分割后文本为:我爱树木;他爱鲜花;他爱春雨;在目标词典中获取分割后文本包括的字词对应的标识信息,并根据分割后文本包括的字词对应的标识信息生成字词样本集合,则所述字词样本集合为:{2,0,3},{1,0,4}和{1,0,5}。
S503、通过文本生成模型在目标词典中对每个字词样本进行关联字词预测处理,得到每个字词样本对应的预测关联字词。
在一个实施例中,所述文本生成模型可以包括文本特征提取模块、softmax输出层和训练模块,所述通过文本生成模型在目标词典中对每个字词样本进行关联字词预测处理,得到每个字词样本对应的预测关联字词,包括:调用文本生成模型在目标词典中对字词样本集合中一个字词样本进行特征提取处理,得到与当前字词样本相匹配的多个字词以及所述多个字词中每个字词与当前字词样本之间的关联度,将上述多个字词以及所述多个字词中每个字词与当前字词样本之间的关联度构成当前字词样本对应的预测字词集合;调用文本自动生成模型中的训练模块从该字词样本对应的预测字词集合中选取与该字词样本关联度最大的字词作为该字词样本对应的预测关联字词。对字词样本集合中的每个字词样本执行上述对一个字词样本处理得到其对应的预测关联字词的步骤,得到字词样本集合中的每个字词样本对应的预测关联字词。
在一个实施例中,所述电子设备调用文本生成模型在目标词典中对字词样本集合中一个字词样本进行特征提取处理,得到与当前字词样本相匹配的多个字词以及所述多个字词中每个字词与当前字词样本之间的关联度,与上述进行文本生成时调用文本生成模型对所述初始字词和所述目标词典中的字词进行特征提取处理,得到与所述初始字词相匹配的多个字词以及所述多个字词中每个字词与所述初始字词之间的关联度,方法相同,在此不做赘述。
在一个实施例中,电子设备调用文本生成模型执行步骤S503时,包括:调用文本特征提取模块中的embedding层对一个字词样本进行字词特征提取处理,把所述字词样本映射为字词特征向量;再把所述字词特征向量通过文本特征编码层进行文本特征提取处理,得到文本特征向量,所述文本特征向量中的向量元素为目标词典中的字词对应的标识信息;然后经过softmax输出层对所述文本特征向量进行指数归一化处理,得到由目标词典中的字词对应的标识信息的概率组成的概率列表,然后根据所述目标词典中的字词对应的标识信息的概率确定目标词典中的字词对应的标识信息与字词样本之间的关联度;假设,把所述概率作为关联度,则选取该字词样本对应的概率列表中概率最大的标识信息对应的字词作为该字词样本对应的预测关联字词。对字词样本集合中的每个字词样本执行上述步骤,得到字词样本集合中的每个字词样本对应的预测关联字词。
其中,所述对所述文本特征向量进行指数归一化处理,得到由目标词典中的字词对应的标识信息的概率组成的概率列表,可以通过执行以下公式(1)求出:
其中,Si为字词样本对应的文本特征向量中的第i个标识信息的概率,Vi表示文本特征向量中第i个标识信息,Vj表示文本特征向量中第j个标识信息;也就是说该字词样本对应的文本特征向量中的第i个标识信息的概率为该字词样本对应的文本特征向量中的第i个标识信息的指数与该字词样本对应的文本特征向量中所有标识信息的指数和的比值。
S504、基于每个字词样本对应的预测关联字词以及每个字词样本对应的标注关联字词确定损失函数。
在一个实施例中,所述损失函数可以为交叉熵损失函数。其中交叉熵损失函数可以由公式(2)确定:
其中,yi为字词样本集合中第i个字词样本对应的标注关联字词,为第i个字词样本对应的预测关联字词所对应的标识信息,n为字词样本集合中的字词样本的数量。
S505、按照减小所述损失函数的值的方向优化所述文本生成模型。
在一个实施例中,可以采用经典反向传播算法优化所述文本生成模型。
S506、获取初始字词。
S507、调用优化完成后的文本生成模型在目标词典中对初始字词进行关联字词查找,得到候选关联字词集合。
S508、从候选关联字词集合中选取至少两个目标关联字词。
S509、基于目标词典对至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到每个目标关联字词对应的查找结果。
S510、根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本。
在一个实施例中,上述S506-S510所述方法与上述S201-S205所述方法相同,在此不做赘述。
在本发明实施例中,电子设备通过在目标词典中对初始字词进行关联字词查找,得到至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果,进一步的根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本。在上述文本生成过程中,对同一个初始字词进行关联字词查找,可以获取到至少两个目标关联字词,并且分别基于至少两个目标关联字词中每个目标关联字词均可以生成一个对应的文本,改变了文本生成方式,实现了基于一个初始字词可以生成至少两个文本,从而提高了文本生成效率。
基于上述文本生成方法实施例,本发明实施例提供了一种文本生成装置。参见图8,为本发明实施例提供的一种文本生成装置的结构示意图,该装置包括获取单元801以及处理单元802。图8所示的文本生成装置可运行如下单元:
获取单元801,用于获取初始字词;
处理单元802,用于在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合;
所述处理单元802,还用于从所述候选关联字词集合中选取至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果;
所述处理单元802,还用于根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
在一个实施例中,所述处理单元802在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合时,执行如下操作:
调用文本生成模型对所述初始字词和所述目标词典中的字词进行特征提取处理,得到与所述初始字词相匹配的多个字词以及所述多个字词中每个字词与所述初始字词之间的关联度;
按照所述关联度由高到低的顺序从所述多个字词中选取N个字词,并将所述N个字词和所述N个字词中每个字词与所述初始字词之间的关联度组成所述候选关联字词集合,其中N为大于等于1的整数。
在一个实施例中,所述至少两个目标关联字词包括第一目标关联字词;相应的,所述处理单元802在基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果时,执行如下操作:
将所述第一目标关联字词确定为基准字词,并在所述目标词典中对所述基准字词进行关联字词查找,得到所述基准字词对应的关联字词子集;
从所述关联字词子集中获取目标候选关联字词;
若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度小于或等于长度阈值,则将所述目标候选关联字词添加至所述第一目标关联字词对应的查找结果中;
采用所述目标候选关联字词更新所述基准字词,并执行在所述目标词典中对所述基准字词进行关联字词查找的步骤;
若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度大于长度阈值,则停止递归。
在一个实施例中,所述获取单元801在获取初始字词之前,还用于获取目标词典,以及获取字词样本集合,所述字词样本集合包括至少一个字词样本以及每个字词样本对应的标注关联字词。
在一个实施例中,所述处理单元802在获取初始字词之前,还用于:
通过文本生成模型在所述目标词典中对所述每个字词样本进行关联字词预测处理,得到所述每个字词样本对应的预测关联字词;
基于所述每个字词样本对应的预测关联字词以及所述每个字词样本对应的标注关联字词确定损失函数;
按照减小所述损失函数的值的方向优化所述文本生成模型。
在一个实施例中,所述获取单元801在获取目标词典时,执行如下操作:
获取初始文本;
按照目标词库对初始文本进行分词处理;
根据分词处理后的初始文本中包括的多个字词构建目标词典,所述目标词典中包括所述多个字词以及每个字词对应的标识信息,所述每个字词对应的标识信息是基于相应字词在分词处理后的初始文本中的词频确定的。
在一个实施例中,所述获取单元801在获取字词样本集合时,执行如下操作:
按照目标文本长度将分词处理后的初始文本进行分割,得到分割后文本;
在所述目标词典中获取所述分割后文本包括的字词对应的标识信息,并根据所述分割后文本包括的字词对应的标识信息生成字词样本集合。
在一个实施例中,所述文本生成模型包括:文本特征提取模块和随机模块,所述对所述初始字词和所述目标词典中的字词进行特征提取处理是调用所述文本特征提取模块执行的;所述按照所述关联度由高到低的顺序从所述多个字词中选取N个字词是调用所述随机模块执行的。
根据本发明的一个实施例,图2和图5所示的文本生成方法所涉及各个步骤可以是由图8所示的文本生成装置中的各个单元来执行的。例如,图2所述的步骤S201可由图8所示的文本生成装置中的获取单元801来执行,步骤S202-S205可由图8所示的文本生成装置中的处理单元802来执行;再如,图5所示的步骤S501、S502以及S506可由图8所示的文本生成装置中的获取单元801来执行,步骤S503-S505以及S507-S510可由图8所示的文本生成装置中的处理单元802来执行。
根据本发明的另一个实施例,图8所示的文本生成装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,基于文本生成装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
在本发明实施例中,电子设备通过在目标词典中对初始字词进行关联字词查找,得到至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果,进一步的根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本。在上述文本生成过程中,对同一个初始字词进行关联字词查找,可以获取到至少两个目标关联字词,并且分别基于至少两个目标关联字词中每个目标关联字词均可以生成一个对应的文本,改变了文本生成方式,实现了基于一个初始字词可以生成至少两个文本,从而提高了文本生成效率。
基于上述的方法实施例以及装置实施例,本发明实施例还提供了一种电子设备。参见图9,该电子设备可至少处理器901、计算机存储介质902、输入接口903以及输出接口904。其中,处理器901、计算机存储介质902、输入接口903以及输出接口904可通过总线或其他方式连接。
计算机存储介质902可以存储在节点设备的存储器中,所述计算机存储介质902用于存储计算机程序,所述计算机程序包括程序指令,所述处理器901用于执行所述计算机存储介质902存储的程序指令。处理器901(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本发明实施例所述的处理器901可用于执行:获取初始字词;在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合;从所述候选关联字词集合中选取至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果;根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器901加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2和图5所述的文本生成方法实施例中的方法的相应步骤,具体实现中,计算机存储介质中的一条或多条指令由处理器901加载并执行如下步骤:获取初始字词;在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合;从所述候选关联字词集合中选取至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果;根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
在一个实施例中,所述处理器901在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合时,执行如下操作:
调用文本生成模型对所述初始字词和所述目标词典中的字词进行特征提取处理,得到与所述初始字词相匹配的多个字词以及所述多个字词中每个字词与所述初始字词之间的关联度;
按照所述关联度由高到低的顺序从所述多个字词中选取N个字词,并将所述N个字词和所述N个字词中每个字词与所述初始字词之间的关联度组成所述候选关联字词集合,其中N为大于等于1的整数。
在一个实施例中,所述至少两个目标关联字词包括第一目标关联字词;相应的,所述处理器901在基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果时,执行如下操作:
将所述第一目标关联字词确定为基准字词,并在所述目标词典中对所述基准字词进行关联字词查找,得到所述基准字词对应的关联字词子集;
从所述关联字词子集中获取目标候选关联字词;
若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度小于或等于长度阈值,则将所述目标候选关联字词添加至所述第一目标关联字词对应的查找结果中;
采用所述目标候选关联字词更新所述基准字词,并执行在所述目标词典中对所述基准字词进行关联字词查找的步骤;
若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度大于长度阈值,则停止递归。
在一个实施例中,所述处理器901在获取初始字词之前,还用于:
获取目标词典,以及获取字词样本集合,所述字词样本集合包括至少一个字词样本以及每个字词样本对应的标注关联字词;
通过文本生成模型在所述目标词典中对所述每个字词样本进行关联字词预测处理,得到所述每个字词样本对应的预测关联字词;
基于所述每个字词样本对应的预测关联字词以及所述每个字词样本对应的标注关联字词确定损失函数;
按照减小所述损失函数的值的方向优化所述文本生成模型。
在一个实施例中,所述处理器901在获取目标词典时,执行如下操作:
获取初始文本;
按照目标词库对初始文本进行分词处理;
根据分词处理后的初始文本中包括的多个字词构建目标词典,所述目标词典中包括所述多个字词以及每个字词对应的标识信息,所述每个字词对应的标识信息是基于相应字词在分词处理后的初始文本中的词频确定的。
在一个实施例中,所述处理器901在获取字词样本集合时,执行如下操作:
按照目标文本长度将分词处理后的初始文本进行分割,得到分割后文本;
在所述目标词典中获取所述分割后文本包括的字词对应的标识信息,并根据所述分割后文本包括的字词对应的标识信息生成字词样本集合。
在一个实施例中,所述文本生成模型包括:文本特征提取模块和随机模块,所述对所述初始字词和所述目标词典中的字词进行特征提取处理是调用所述文本特征提取模块执行的;所述按照所述关联度由高到低的顺序从所述多个字词中选取N个字词是调用所述随机模块执行的。
在本发明实施例中,电子设备通过在目标词典中对初始字词进行关联字词查找,得到至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果,进一步的根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本。在上述文本生成过程中,对同一个初始字词进行关联字词查找,可以获取到至少两个目标关联字词,并且分别基于至少两个目标关联字词中每个目标关联字词均可以生成一个对应的文本,改变了文本生成方式,实现了基于一个初始字词可以生成至少两个文本,从而提高了文本生成效率。
根据本申请的一个方面,本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。处理器901从计算机可读存储介质读取该计算机指令,处理器901执行该计算机指令,使得该电子设备执行图2所示的文本生成方法,具体地:获取初始字词;在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合;从所述候选关联字词集合中选取至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果;根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
以上所揭露的仅为本发明部分实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (9)
1.一种文本生成方法,其特征在于,包括:
获取初始字词;
在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合,包括:调用文本生成模型对所述初始字词和所述目标词典中的字词进行特征提取处理,得到与所述初始字词相匹配的多个字词以及所述多个字词中每个字词与所述初始字词之间的关联度;按照所述关联度由高到低的顺序从所述多个字词中选取N个字词,并将所述N个字词和所述N个字词中每个字词与所述初始字词之间的关联度组成所述候选关联字词集合,其中N为大于或等于1的整数;所述候选关联字词集合包括所述目标词典中与所述初始字词相匹配的至少两个字词;
从所述候选关联字词集合中随机选取至少两个目标关联字词,所述至少两个目标关联字词包括第一目标关联字词;
基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果,包括:将所述第一目标关联字词确定为基准字词,并在所述目标词典中对所述基准字词进行关联字词查找,得到所述基准字词对应的关联字词子集;从所述关联字词子集中获取目标候选关联字词;若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度小于或等于长度阈值,则将所述目标候选关联字词添加至所述第一目标关联字词对应的查找结果中;采用所述目标候选关联字词更新所述基准字词,并执行在所述目标词典中对所述基准字词进行关联字词查找的步骤;若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度大于长度阈值,则停止递归;
根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
2.如权利要求1所述的方法,其特征在于,所述获取初始字词之前,所述方法还包括:
获取目标词典,以及获取字词样本集合,所述字词样本集合包括至少一个字词样本以及每个字词样本对应的标注关联字词;
通过文本生成模型在所述目标词典中对所述每个字词样本进行关联字词预测处理,得到所述每个字词样本对应的预测关联字词;
基于所述每个字词样本对应的预测关联字词以及所述每个字词样本对应的标注关联字词确定损失函数;
按照减小所述损失函数的值的方向优化所述文本生成模型。
3.如权利要求2所述的方法,其特征在于,所述获取目标词典,包括:
获取初始文本;
按照目标词库对初始文本进行分词处理;
根据分词处理后的初始文本中包括的多个字词构建目标词典,所述目标词典中包括所述多个字词以及每个字词对应的标识信息,所述每个字词对应的标识信息是基于相应字词在分词处理后的初始文本中的词频确定的。
4.如权利要求3所述的方法,其特征在于,所述获取字词样本集合,包括:
按照目标文本长度将分词处理后的初始文本进行分割,得到分割后文本;
在所述目标词典中获取所述分割后文本包括的字词对应的标识信息,并根据所述分割后文本包括的字词对应的标识信息生成字词样本集合。
5.如权利要求1所述的方法,其特征在于,所述文本生成模型包括:文本特征提取模块和随机模块,所述对所述初始字词和所述目标词典中的字词进行特征提取处理是调用所述文本特征提取模块执行的;所述按照所述关联度由高到低的顺序从所述多个字词中选取N个字词是调用所述随机模块执行的。
6.一种文本生成装置,其特征在于,包括:
获取单元,用于获取初始字词;
处理单元,用于在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合,所述候选关联字词集合包括所述目标词典中与所述初始字词相匹配的至少两个字词;
所述处理单元,在目标词典中对所述初始字词进行关联字词查找,得到候选关联字词集合时,具体用于:调用文本生成模型对所述初始字词和所述目标词典中的字词进行特征提取处理,得到与所述初始字词相匹配的多个字词以及所述多个字词中每个字词与所述初始字词之间的关联度;按照所述关联度由高到低的顺序从所述多个字词中选取N个字词,并将所述N个字词和所述N个字词中每个字词与所述初始字词之间的关联度组成所述候选关联字词集合,其中N为大于或等于1的整数;
所述处理单元,还用于从所述候选关联字词集合中随机选取至少两个目标关联字词,并基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果;所述至少两个目标关联字词包括第一目标关联字词;
所述处理单元,在基于所述目标词典对所述至少两个目标关联字词中每个目标关联字词进行递归关联字词查找,得到所述每个目标关联字词对应的查找结果时,具体用于:将所述第一目标关联字词确定为基准字词,并在所述目标词典中对所述基准字词进行关联字词查找,得到所述基准字词对应的关联字词子集;从所述关联字词子集中获取目标候选关联字词;若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度小于或等于长度阈值,则将所述目标候选关联字词添加至所述第一目标关联字词对应的查找结果中;采用所述目标候选关联字词更新所述基准字词,并执行在所述目标词典中对所述基准字词进行关联字词查找的步骤;若由所述目标候选关联字词和历史确定出的基准字词组成的文本的长度大于长度阈值,则停止递归;
所述处理单元,还用于根据所述初始字词、所述每个目标关联字词以及所述每个目标关联字词对应的查找结果生成至少两个文本,每个文本中包括所述初始字词、一个目标关联字词以及与一个目标关联字词对应的查找结果。
7.一种电子设备,其特征在于,包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-5任一项所述的文本生成方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质上存储计算机程序指令,所述计算机程序指令被处理器执行,用于执行如权利要求1-5中任一项所述的文本生成方法。
9.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机存储介质中,所述计算机指令适于由电子设备的处理器从所述计算机存储介质中读取并执行如权利要求1-5任一项所述的文本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087291.4A CN112052649B (zh) | 2020-10-12 | 2020-10-12 | 文本生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087291.4A CN112052649B (zh) | 2020-10-12 | 2020-10-12 | 文本生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052649A CN112052649A (zh) | 2020-12-08 |
CN112052649B true CN112052649B (zh) | 2024-05-31 |
Family
ID=73606041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011087291.4A Active CN112052649B (zh) | 2020-10-12 | 2020-10-12 | 文本生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052649B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449515A (zh) * | 2021-01-27 | 2021-09-28 | 心医国际数字医疗***(大连)有限公司 | 一种医学文本的预测方法、预测装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218447A (zh) * | 2013-04-24 | 2013-07-24 | 东莞宇龙通信科技有限公司 | 一种联想输入方法及装置 |
CN107291680A (zh) * | 2017-05-09 | 2017-10-24 | 毛姗婷 | 一种基于模板的自动生成作文的***及实现方法 |
CN109977390A (zh) * | 2017-12-27 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种生成文本的方法及装置 |
CN110673748A (zh) * | 2019-09-27 | 2020-01-10 | 北京百度网讯科技有限公司 | 输入法中候选长句的提供方法及装置 |
CN111291549A (zh) * | 2020-05-08 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和电子设备 |
-
2020
- 2020-10-12 CN CN202011087291.4A patent/CN112052649B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218447A (zh) * | 2013-04-24 | 2013-07-24 | 东莞宇龙通信科技有限公司 | 一种联想输入方法及装置 |
CN107291680A (zh) * | 2017-05-09 | 2017-10-24 | 毛姗婷 | 一种基于模板的自动生成作文的***及实现方法 |
CN109977390A (zh) * | 2017-12-27 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种生成文本的方法及装置 |
CN110673748A (zh) * | 2019-09-27 | 2020-01-10 | 北京百度网讯科技有限公司 | 输入法中候选长句的提供方法及装置 |
CN111291549A (zh) * | 2020-05-08 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112052649A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765306B (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN110851596A (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN110197279B (zh) | 变换模型训练方法、装置、设备和存储介质 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN112860919B (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN110019795B (zh) | 敏感词检测模型的训练方法和*** | |
CN110348012B (zh) | 确定目标字符的方法、装置、存储介质及电子装置 | |
CN112463956B (zh) | 基于对抗学习和分层神经网络的文本摘要生成***和方法 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN111881264B (zh) | 一种开放领域问答任务中长文本检索的方法和电子设备 | |
CN113496123A (zh) | 谣言检测方法、装置、电子设备及存储介质 | |
CN112052649B (zh) | 文本生成方法、装置、电子设备及存储介质 | |
CN112487813B (zh) | 命名实体识别方法及***、电子设备及存储介质 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN111967265B (zh) | 一种数据集自动生成的中文分词与实体识别联合学习方法 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 | |
CN114492669B (zh) | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 | |
CN114880991B (zh) | 知识图谱问答问句实体链接方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |