CN109992771B - 一种文本生成的方法及装置 - Google Patents
一种文本生成的方法及装置 Download PDFInfo
- Publication number
- CN109992771B CN109992771B CN201910189977.5A CN201910189977A CN109992771B CN 109992771 B CN109992771 B CN 109992771B CN 201910189977 A CN201910189977 A CN 201910189977A CN 109992771 B CN109992771 B CN 109992771B
- Authority
- CN
- China
- Prior art keywords
- text
- layer
- target text
- target
- candidate set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本生成的方法及装置,由于本说明书提供的文本生成方法预先根据样本文本和样本文本对应的业务指标训练得到抽取式文本生成模型和生成式文本生成模型,在生成目标文本时,采用上述的抽取式文本生成模型和生成式文本生成模型得到第一目标文本候选集和第二文本候选集,再根据两个候选集中每个目标文本对应的预测业务指标选择原始文本对应的目标文本,因此可以使生成的目标文本满足实际业务需求。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本生成的方法及装置。
背景技术
随着移动互联网的发展,网上内容的创作可大体分为专业生产内容(Professionally-Generated Content,PGC和用户生产内容(User-Generated Content,UGC)。PGC形式的信息多以长文的形式出现,较为正式,而UGC形式的信息多以短文的形式出现,较为随意。二者的重要区别之一是:长文形式的信息大多具有标题,而短文形式的信息大多不具有标题。
例如,对于同一家餐馆的评价,若是以较为正式的PGC形式出现,则创作该长文的作者一般都会为该长文形式的信息编写标题,再在网上发布,而若是以较为随意的UGC形式出现,则创作该短文的作者通常不会特意编写标题。因此,如何自动化的为这些不具有标题的信息生成标题文本,是一个亟待解决的问题。
在现有技术中,根据某个原始文本(如上述的UGC)生成目标文本(如上述的标题文本)的方法通常是规划法,即,将原始文本进行结构化,再根据结构化的信息,通过语法规则、属性规则等方式规划生成目标文本。
但是,现有技术的方法只能生成语法通顺的目标文本,而在实际应用场景中,只生成语法通顺的目标文本往往不能满足实际的业务需求(例如,为某个原始文本生成目标文本后,该原始文本或与该原始文本相关的信息的点击量、点击率或流量得到提升)。
基于现有技术,需要能够满足实际业务需求的文本生成方法。
发明内容
本说明书实施例提供一种文本生成的方法及装置,用于解决现有技术的文本生成方法不能满足实际业务需求的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种文本生成的方法,包括:
获取原始文本;
根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标;所述抽取式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标;所述生成式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
根据所述第一目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,从所述第一目标文本候选集和第二目标文本候选集中的目标文本中,选择所述原始文本对应的目标文本。
可选地,所述抽取式文本生成模型至少包括双向长短期记忆层、注意力层、全连接层、输出判别层。
可选地,根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
对所述原始文本进行分句拼句处理,得到所述原始文本对应的各语句;
针对所述原始文本对应的每个语句,对该语句进行分词处理,得到该语句中包含的每个词语;
将该语句的每个词语的词向量输入所述抽取式文本生成模型,得到所述抽取式文本生成模型输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
可选地,所述抽取式文本生成模型至少包括卷积神经网络、隐层、双向长短期记忆层、注意力层、全连接层、输出判别层。
可选地,根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
将所述原始文本输入到所述卷积神经网络,将所述卷积神经网络的输出结果输入到所述隐层,将所述隐层的输出结果输入到所述全连接层;并,对所述原始文本进行分句拼句处理,得到所述原始文本对应的各语句,针对所述原始文本对应的每个语句,对该语句进行分词处理,得到该语句中包含的每个词语,将该语句的每个词语的词向量输入到所述双向长短期记忆层,将所述双向长短期记忆层的输出结果输入到所述注意力层,将所述注意力层的输出结果输入到所述全连接层;
将所述全连接层的输出结果输入到所述输出判别层,得到所述输出判别层输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
可选地,所述抽取式文本生成模型为序列到序列Seq2Seq模型;
所述抽取式文本生成模型至少包括:编码端和解码端;
所述编码端至少包括:第一自注意力层、第一前向传输层、第二自注意力层、第一主题词注意力层、第二前向传输层;
所述解码端至少包括:第二主题词注意力层、编码解码注意力层、第三前向传输层、Softmax层。
可选地,根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
确定所述原始文本对应的双向语义模型向量以及主题词的词向量;
将所述主题词的词向量输入到所述第一自注意力层,将所述第一自注意力层的输出结果输入到所述第一前向传输层,将所述第一前向传输层的输出结果输入到所述第一主题词注意力层和所述第二主题词注意力层;
将所述双向语义模型向量输入到所述第二自注意力层,将所述第二自注意力层的输出结果输入到所述第一主题词注意力层,将所述第一主题词注意力层的输出结果输入到所述第二前向传输层,将所述第二前向传输层的输出结果输入到所述编码解码注意力层;
将所述第二主题词注意力层的输出结果输入到所述编码解码注意力层,将所述编码解码注意力层的输出结果输入到所述第三前向传输层,将所述第三前向传输层的输出结果输入到所述Softmax层,得到所述Softmax层输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
可选地,所述生成式文本生成模型为序列到序列Seq2Seq模型;
所述生成式文本生成模型至少包括:编码端和解码端;
所述编码端至少包括:注意力层。
可选地,根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
确定所述原始文本对应的双向语义模型向量以及主题词的词向量;
将所述双向语义模型向量和所述主题词的词向量输入到所述注意力层和所述解码端,将所述注意力层的输出结果输入到所述解码端,得到所述解码端输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
可选地,所述生成式文本生成模型为序列到序列Seq2Seq模型;
所述生成式文本生成模型至少包括:编码端和解码端;
所述编码端至少包括:第一自注意力层、第一前向传输层、第二自注意力层、第一主题词注意力层、第二前向传输层;
所述解码端至少包括:第二主题词注意力层、编码解码注意力层、第三前向传输层、Softmax层。
可选地,根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
确定所述原始文本对应的双向语义模型向量以及主题词的词向量;
将所述主题词的词向量输入到所述第一自注意力层,将所述第一自注意力层的输出结果输入到所述第一前向传输层,将所述第一前向传输层的输出结果输入到所述第一主题词注意力层和所述第二主题词注意力层;
将所述双向语义模型向量输入到所述第二自注意力层,将所述第二自注意力层的输出结果输入到所述第一主题词注意力层,将所述第一主题词注意力层的输出结果输入到所述第二前向传输层,将所述第二前向传输层的输出结果输入到所述编码解码注意力层;
将所述第二主题词注意力层的输出结果输入到所述编码解码注意力层,将所述编码解码注意力层的输出结果输入到所述第三前向传输层,将所述第三前向传输层的输出结果输入到所述Softmax层,得到所述Softmax层输出的第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标。
可选地,从所述第一目标文本候选集和第二目标文本候选集中的目标文本中,选择所述原始文本对应的目标文本,具体包括:
按照对应的预测业务指标从高到底的顺序,对所述第一目标文本候选集和第二目标文本候选集中的各目标文本进行排序;
按照各目标文本的排序从先到后的顺序,选择指定数量的目标文本,作为所述原始文本对应的目标文本。
可选地,选择所述原始文本对应的目标文本之后,所述方法还包括:
根据选择出的所述原始文本对应的各目标文本的预测业务指标,为所述原始文本对应的各目标文本分配流量;
根据为所述原始文本对应的各目标文本分配的流量,发布所述原始文本和所述原始文本对应的各目标文本。
可选地,发布所述原始文本和所述原始文本对应的各目标文本之后,所述方法还包括:
监控所述原始文本对应的各目标文本对应的实际业务指标;
根据监控到的所述原始文本对应的各目标文本对应的实际业务指标,调整为所述原始文本对应的各目标文本分配的流量。
本说明书提供的一种文本生成的装置,包括:
获取模块,用于获取原始文本;
第一候选集确定模块,用于根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标;所述抽取式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
第二候选集确定模块,用于根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标;所述生成式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
选择模块,用于根据所述第一目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,从所述第一目标文本候选集和第二目标文本候选集中的目标文本中,选择所述原始文本对应的目标文本。
本说明书提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本生成的方法。
本说明书提供的第一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本生成的方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
由于本说明书提供的文本生成方法预先根据样本文本和样本文本对应的业务指标训练得到抽取式文本生成模型和生成式文本生成模型,在生成目标文本时,采用上述的抽取式文本生成模型和生成式文本生成模型得到第一目标文本候选集和第二文本候选集,再根据两个候选集中每个目标文本对应的预测业务指标选择原始文本对应的目标文本,因此可以使生成的目标文本满足实际业务需求。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的文本生成过程;
图2为本说明书实施例提供的第一种抽取式文本生成模型的结构;
图3为本说明书实施例提供的第二种抽取式文本生成模型的结构;
图4为本说明书实施例提供的第三种抽取式文本生成模型的结构;
图5为本说明书实施例提供的训练第三种抽取式文本生成模型时的模型结构;
图6为本说明书实施例提供的第一种生成式文本生成模型的结构;
图7为本说明书实施例提供的第二种生成式文本生成模型的结构;
图8为本说明书实施例提供的训练第二种生成式文本生成模型时的模型结构;
图9为本说明书实施例提供的文本生成的装置的结构示意图;
图10为本说明书实施例提供的对应于图1的电子设备示意图。
具体实施方式
在目前的现有技术中,根据原始文本生成目标文本时(如,根据短文生成该短文的标题或文摘等),技术难点已经不再是如何生成一个语法通顺的目标文本,而是如何生成满足日益多样化的业务需求的目标文本,例如,生成的目标文本需要提高原始文本的点击量、生成的目标文本需要与原始文本强相关等。
为此,本说明书摒弃现有技术中常用的规划式文本生成方法,采用抽取式文本生成模型和生成式文本生成模型来生成目标文本,抽取式文本生成模型和生成式文本生成模型均以实际的业务指标为训练目标进行训练,以保证生成的目标文本满足实际的业务需求。
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本说明书实施例提供的文本生成过程,具体可包括以下步骤:
S100:获取原始文本。
在本说明书实施例中,原始文本的获取方法可以是直接获取用户发布的原始文本,或者从第三方服务器中获取原始文本,本说明书对此不作限定。
S102:根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
首先说明抽取式文本生成模型的基本原理,抽取式文本生成模型的基本原理是拆分原始文本中的词句,并按语法规则进行重组,得到目标文本。也就是说,采用抽取式文本生成模型所生成的目标文本的词句均来源于原始文本,因此,目标文本与原始文本的相关性相对较好,改变原始文本的行文风格较少,不易造成用户阅读体验的问题。
但由于所需的目标文本需要满足实际业务需求,因此,在本说明书中,所述的抽取式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的。抽象的说,本说明书所述的抽取式文本生成模型相当于是一个二分类模型,其输出的目标文本有两类,一类是不能达到业务指标的目标文本,一类是能够达到业务指标的目标文本。显然,训练抽取式文本生成模型的目标就是尽量准确的区分上述两类目标文本,并输出第二类目标文本。
具体的抽取式文本生成模型的结构将在下文说明。
S104:根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标。
首先说明生成式文本生成模型的基本原理,生成式文本生成模型的基本原理是基于对原始文本的语义理解,在保存有海量词汇的词表中挑选词语,并组成能够表达出原始文本语义的语句。因此,使用生成式文本模型生成的目标文本实际上是对原始文本的二次优化,可得到更能满足用户体验或业务需求的目标文本。
在本说明书中,所述的生成式文本生成模型也是预先根据样本文本和样本文本对应的业务指标训练得到的。抽象的说,本说明书所述的生成式文本生成模型实际上是在给定上文并在一定受限条件(业务指标)下,预估下个词的概率。
具体的生成式文本生成模型的结构将在下文说明。
S106:根据所述第一目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,从所述第一目标文本候选集和第二目标文本候选集中的目标文本中,选择所述原始文本对应的目标文本。
在本说明书实施例中,通过步骤S102和S104得到第一目标文本候选集和第二目标文本候选集后(本说明书中的步骤S102和S104的执行顺序不分先后),可先确定第一目标文本候选集和第二目标文本候选集的并集,也即第一目标文本候选集和第二目标文本候选集包含的所有目标文本,再按照对应的预测业务指标从高到底的顺序,对上述并集中的目标文本进行排序,最后按照各目标文本的排序从先到后的顺序,选择指定数量的目标文本,作为原始文本对应的目标文本。
进一步的,选择出原始文本对应的目标文本后,还可根据选择出的原始文本对应的各目标文本的预测业务指标,以预测业务指标越高,流量越多的方式,为原始文本对应的各目标文本分配流量,并根据为原始文本对应的各目标文本分配的流量,发布原始文本和原始文本对应的各目标文本。
例如,假设业务指标为点击率,通过上述方法为原始文本选择出的目标文本有A、B、C三个,A对应的预测点击率为50%,B对应的预测点击率为30%,C对应的预测点击率为20%,则以预测点击率越高,流量越多的方式,为A分配70%的流量,为B分配20%的流量,为C分配10%的流量。最后按照为三个目标文本分配的流量发布,即为,将原始文本以标题A显示的流量为70%,将原始文本以标题B显示的流量为20%,将原始文本以标题C显示的流量为10%。
更进一步的,由于本说明书中所述的预测业务指标只是通过上述的抽取式文本生成模型或生成式文本生成模型预测得到的,其准确性难以达到百分之百,因此,还可在发布原始文本和原始文本对应的各目标文本后,监控原始文本对应的各目标文本对应的实际业务指标,并根据监控到的原始文本对应的各目标文本对应的实际业务指标,调整为原始文本对应的各目标文本分配的流量,最后根据调整后的流量重新发布原始文本和原始文本对应的各目标文本。
继续沿用上例,假设按上例发布了原始文本和目标文本A、B、C后,目标文本A的实际点击率仅为5%,而目标文本C的实际点击率为45%,目标文本B的点击率为30%,则可根据各目标文本的实际点击率,将各目标文本分配的流量调整为:为目标文本A分配10%的流量,为目标文本B分配20%的流量,为目标文本C分配70%的流量。
下面详细说明本说明书实施例提供的抽取式文本生成模型的结构。
图2为本说明书实施例提供的第一种抽取式文本生成模型的结构,该结构主要目的是将原始文本进行双向语义表示,并将该双向语义表示经过注意力层的加权后,输入深度学习模型中。
具体的,该结构可包括双向长短期记忆(Bi-Long Short-Term Memory,Bi-LSTM)层、注意力层、dropout层、全连接层、输出判别层。
其中:
Bi-LSTM层用于将原始文本进行双向语义表示;
注意力层用于对每个词语进行注意力加权(一个词语的注意力加权表示用户对这个词语的关注程度,或者说用户容易被该词语吸引的程度);
dropout层用于在训练该抽取式文本生成模型时避免过拟合,当然,本说明书实施例只是以dropout为例进行说明,其他避免过拟合的方法均可应用在本说明书所述的抽取式文本生成模型中,如正则化等,本说明书对此不作限制;
最后的全连接层和输出判别层就构成了深度学习模型,其中,输出判别层可采用交叉熵的Sigmod实现。
采用如图2所示的抽取式文本生成模型得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标时,可先对原始文本进行分句拼句处理,得到原始文本对应的各语句,再针对原始文本对应的每个语句,对该语句进行分词处理,得到该语句中包含的每个词语,最后将该语句的每个词语的词向量依次输入图2所示的抽取式文本生成模型中的各层,得到抽取式文本生成模型输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
如图2所示的抽取式文本生成模型的结构实际上是将语句从原始文本中抽离了处理,独立于原始文本对语句进行建模,因此图2所示的模型输出的目标文本可能会出现与原始文本相关性较差的问题,为了解决该问题,本说明书实施例还提供了如图3所示的第二种抽取式文本生成模型的结构。
图3所示的第二种抽取式文本生成模型的结构在图2的基础上,结合了原始文本作为输入,其将原始文本输入卷积神经网络模型后与从原始文本中抽离的语句一并输入全连接层,其目的是采用原始文本整体上对输出的目标文本进行限制,以降低目标文本与原始文本不相关的可能性。
具体的,图3所示的抽取式文本生成模型可包括:卷积神经网络、隐层(隐层可能有多层,图3中仅表示为一层)、第一dropout层、双向长短期记忆层、注意力层、第二dropout层、全连接层、输出判别层。
其中:
卷积神经网络和隐层构成了卷积神经网络模型,其输出通过第一dropout层的防止过拟合处理后,输入到全连接层;
双向长短期记忆层、注意力层、第二dropout层、全连接层、输出判别层与图2所示的双向长短期记忆层、注意力层、dropout层、全连接层、输出判别层的作用一一对应,此处不再一一赘述。
在采用图3所示的抽取式文本生成模型得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标时,可将原始文本输入到卷积神经网络,将所述卷积神经网络的输出结果输入到隐层,将隐层的输出结果输入到第一dropout层,将第一dropout层的输出结果输入到全连接层;并可同时对原始文本进行分句拼句处理,得到原始文本对应的各语句,针对原始文本对应的每个语句,对该语句进行分词处理,得到该语句中包含的每个词语,将该语句的每个词语的词向量输入到双向长短期记忆层,将双向长短期记忆层的输出结果输入到注意力层,将所述注意力层的输出结果输入到第二dropout层,将第二dropout层的输出结果输入到全连接层;最后,将全连接层的输出结果输入到输出判别层,得到输出判别层输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
如图3所示的抽取式文本生成模型的结构通过卷积神经网络引入了原始文本作为目标文本的限制,但输出的目标文本与原始文本的相关性受原始文本长度的影响较大,较为适合处理原始文本较短的情形,即,若原始文本的字数小于指定阈值,使用图3所示的抽取式文本生成模型结构可达到较为理想的效果。若原始文本的字数大于指定阈值,则由于卷积神经网络的卷积窗口会影响到上下文中两个词语的依赖性,仍会出现目标文本与原始文本相关性较低的问题,而且由于卷积神经网络的训练效率在原始文本较长时也会显著下降,因此整个抽取式文本生成模型训练效率也会显著下降。
因此,对于原始文本的字数大于指定阈值的情形,本说明书实施例还提供了第三种抽取式文本生成模型的结构,如图4所示。
图4所示的模型结构为序列到序列(Seq2Seq)模型结构,其主要通过自注意力层解决上下文中两个词语在原始文本中相隔较远时依赖性减弱的问题,并且不适用卷积神经网络,可提高模型训练效率,而且在编码端(encoder)和解码端(decoder)均引入了主体词注意力层,可强化原始文本的主体词对输出的目标文本的控制,更进一步保证目标文本和原始文本的相关性。
具体的,图4所示的抽取式文本生成模型可包括:编码端和解码端。
编码端至少包括:第一自注意力层、第一前向传输层、第二自注意力层、第一主题词注意力层、第二前向传输层;
解码端至少包括:第二主题词注意力层、编码解码注意力层、第三前向传输层、输出判别层。
其中,encoder端的第一自注意力层以原始文本的主题词为输入,encoder端的第二自注意力层以原始文本的双向语义表示为输入,encoder端的第一主题词注意力层用于在encoder端强化在原始文本的双向语义中捕捉主题词的能力,而decoder端的第二主题词注意力层用于在decoder端强化目标文本捕捉主题词的能力。
采用图4所示的抽取式文本生成模型得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标时,可先确定原始文本对应的双向语义模型向量以及主题词的词向量;再将主题词的词向量输入到第一自注意力层,将第一自注意力层的输出结果输入到第一前向传输层,将第一前向传输层的输出结果输入到第一主题词注意力层和第二主题词注意力层;并同时将双向语义模型向量输入到第二自注意力层,将第二自注意力层的输出结果输入到第一主题词注意力层,将第一主题词注意力层的输出结果输入到第二前向传输层,将第二前向传输层的输出结果输入到编码解码注意力层;最后将第二主题词注意力层的输出结果输入到编码解码注意力层,将编码解码注意力层的输出结果输入到第三前向传输层,将第三前向传输层的输出结果输入到输出判别层,得到输出判别层输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
如图4所示的抽取式文本生成模型可适用于原始文本的字数不小于指定阈值的情形,当然,若原始文本的字数小于指定阈值,图4所示的模型也可适用。
另外,在训练如图4所示的模型时,还需要将样本文本的标注输入到第二主题词注意力层。此时的模型结构如图5所示,即,在图4所示的模型结构的基础上,增加了第三自注意力层,以样本文本的标注为输入,第三自注意力层的输出为第二主题词注意力层。
以上为本说明书提供的三种抽取式文档生成模型的结构及其使用方法。下面详细说明本说明书实施例提供的生成式文本生成模型的结构。
图6为本说明书实施例提供的第一种生成式文本生成模型的结构,如图6所示,该生成式文本生成模型为基于循环神经网络的Seq2Seq模型,其encoder端结合原始文本和原始文本的主题词,从decoder端的包含海量词汇的词表中挑选词语,并组成目标文本。
具体的,图6所示的生成式文本生成模型至少包括:编码端和解码端。
编码端至少包括:注意力层。该注意力层的作用是根据已挑选出的词语和用户对各种词汇的注意力加权,计算词表中将每个词语作为下一个词语的概率。
解码端至少包括:词表和概率计算功能模块,用于根据原始文本、原始文本的主题词以及已挑选出的词语,计算词表中将每个词语作为下一个词语的概率。
采用图6所示的生成式文本生成模型得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标时,可先确定原始文本对应的双向语义模型向量以及主题词的词向量;再将双向语义模型向量和主题词的词向量输入到注意力层和解码端,并同时将注意力层的输出结果输入到解码端,得到解码端输出的第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标。
与图3所示的抽取式文本生成模型类似的,图6所示的生成式文本生成模型也存在目标文本与原始文本的相关性受限于原始文本的长度的问题,因此,也可使用类似于图4的基于自注意力的Seq2Seq模型,如图7所示。
图7为本说明书实施例提供的第二种生成式文本生成模型的结构,其与图4的区别在于,将图4中的输出判别层替换成了Softmax层,而训练图7所示的生成式文本生成模型时的模型结构也与图5类似,如图8所示,区别在于将图5中的输出判别层替换成了Softmax层。
需要说明的是,图4与图7、图5与图8的区别原因在于:抽取式文本生成模型实际上是一个二分类模型,其解决的是从原始文本中抽取并重组的文本是否适合作为原始文本对应的目标文本的问题,也就是说其解决的是“是否”的问题,而生成式文本生成模型则是根据原始文本生成适合于作为目标文本的文本的问题,也就是说其解决的是“如何生成”的问题,因此,图4和图5所示的抽取式文本生成模型最终由输出判别模型输出,而图7和图8所示的生成式文本生成模型由Softmax层输出,Softmax层实际上就包含了词表,其作用就是根据之前计算得到的概率映射到词表,并从词表中挑选词语生成目标文本。
另外,对于图5和图8所示的训练两种模型时的模型结构,由于上述已经说明了两种模型所解决的问题不同,也就是说两种模型的训练目标不同,因此图5和图8所示的模型结构中所要输入的样本文本的标注也是不同的。对于图5所示的抽取式文本生成模型,样本文本包括样本原始文本和样本目标文本,而样本文本的标注则是根据业务指标所判断的样本目标文本是否适合于作为样本原始对应的目标文本的判断结果。对于图8所示的抽取式文本生成模型,样本文本包括样本原始文本,而样本文本的标注则是样本原始文本对应的符合业务指标的目标文本,也就是所期望的目标文本。
进一步的,在训练生成式文本生成模型时,在将样本原始文本的主题词输入第一自注意力层的同时,还可将标注(所期望的目标文本)中包含的指定类型的词语也输入第一自注意力层。该指定类型可根据需要进行设定,如:表示地理位置的词语等。这是由于生成式文本生成模型输出的目标文本中的词语并不来源于原始文本,因此,其输出的目标文本的准确性相比于原始文本可能较低。例如,某家只在北京存在的餐馆的描述信息为原始文本,经过生成式文本生成模型处理后,输出的目标文本为“上海某餐馆味道棒极了”,这显然会导致准确性降低,因此,可根据实际需要,在训练生成式文本生成模型时,将标注中包含的指定类型的词语也作为第一自注意力层的输入,从而达到原始文本中一旦出现这类型词语时,输出的目标文本不能随意改动这类型词语的目的。
更进一步的,在训练生成式文本生成模型时,在decoder端的Beam Search阶段,还可加入用于调整当前文本分数的控制函数,该控制函数可根据需要自定义。
具体的,由于采用生成式文本生成模型生成目标文本时,实际上是多次从词表中选择下一个词语的过程,也就是说,目标文本的生成过程是按词级进行的。一般的词表都是十万以上的量级,如果每轮候选的词语都是整个词表,则假设生成目标文本的长度为N,那么最终候选的目标文本就有十万的N次方种可能,这在计算和存储上是几乎不可行的。此时,就需要使用到Beam Search方法,每一次选择词语时只保留最优的前K个当前文本(所谓的最优,是指当前文本的打分最高,或者说当前文本的概率最大),其他文本则忽略。那么,在计算最优的前K个当前文本时,就可以加入用于调整当前文本分数的控制函数,该控制函数可根据当前文本中包含的至少一个词语调整当前文本的打分(或者说概率),以达到每次选择词语时调整各当前文本的排序,从而改变保留的最优的当前文本的目的。
例如,假设原始文本为北京某家餐馆的描述信息,期望输出的目标文本是PGC风格的目标文本而不是UGC风格的目标文本,则可预先将控制函数定义为:如果当前文本中包含了PGC风格的词语,则当前文本的打分增加一定的值,如果当前文本中包含了UGC风格的词语,则当前文本的打分减少一定的值。这样,decoder端经过Beam Search后,就更有可能生成PGC风格的目标文本而不是UGC风格的目标文本。
以上是本说明书提供的三种抽取式文本生成模型和两种生成式文本生成模型的结构及其使用方法。
在图1所示的过程中,将原始文本输入到抽取式文本生成模型和生成式文本生成模型之前,可先对该原始文本进行预处理,再将预处理后的原始文本输入到抽取式文本生成模型和生成式文本生成模型。
本说明书中所述的预处理包括但不限于:格式归一化、词句依存分析、情感分析、合法性过滤等。
其中,上述的格式归一化用于将原始文本的格式转换为标准格式,例如字体归一化、大小写归一化等。
词句依存分析用于分析原始文本中各词语或语句之间的依存关系。
情感分析用于分析原始文本的主要情感特征,如,喜怒哀乐等。
合法性过滤用于过滤掉不合法的原始文本,如,包含敏感词的原始文本、无实际内容的原始文本等。
以上为本说明书实施例提供的文本生成方法。基于同样的思路,本说明书实施例还提供了相应的文本生成的装置,如图9所示。
图9为本说明书实施例提供的文本生成的装置的结构示意图,包括:
获取模块900,用于获取原始文本;
第一候选集确定模块902,用于根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标;所述抽取式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
第二候选集确定模块904,用于根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标;所述生成式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
选择模块906,用于根据所述第一目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,从所述第一目标文本候选集和第二目标文本候选集中的目标文本中,选择所述原始文本对应的目标文本。
可选地,所述抽取式文本生成模型至少包括双向长短期记忆层、注意力层、全连接层、输出判别层。
可选地,所述第一候选集确定模块902具体用于,对所述原始文本进行分句拼句处理,得到所述原始文本对应的各语句;针对所述原始文本对应的每个语句,对该语句进行分词处理,得到该语句中包含的每个词语;将该语句的每个词语的词向量输入所述抽取式文本生成模型,得到所述抽取式文本生成模型输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
可选地,所述抽取式文本生成模型至少包括卷积神经网络、隐层、双向长短期记忆层、注意力层、全连接层、输出判别层。
可选地,所述第一候选集确定模块902具体用于,将所述原始文本输入到所述卷积神经网络,将所述卷积神经网络的输出结果输入到所述隐层,将所述隐层的输出结果输入到所述全连接层;并,对所述原始文本进行分句拼句处理,得到所述原始文本对应的各语句,针对所述原始文本对应的每个语句,对该语句进行分词处理,得到该语句中包含的每个词语,将该语句的每个词语的词向量输入到所述双向长短期记忆层,将所述双向长短期记忆层的输出结果输入到所述注意力层,将所述注意力层的输出结果输入到所述全连接层;将所述全连接层的输出结果输入到所述输出判别层,得到所述输出判别层输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
可选地,所述抽取式文本生成模型为序列到序列Seq2Seq模型;
所述抽取式文本生成模型至少包括:编码端和解码端;
所述编码端至少包括:第一自注意力层、第一前向传输层、第二自注意力层、第一主题词注意力层、第二前向传输层;
所述解码端至少包括:第二主题词注意力层、编码解码注意力层、第三前向传输层、输出判别层。
可选地,所述第一候选集确定模块902具体用于,确定所述原始文本对应的双向语义模型向量以及主题词的词向量;将所述主题词的词向量输入到所述第一自注意力层,将所述第一自注意力层的输出结果输入到所述第一前向传输层,将所述第一前向传输层的输出结果输入到所述第一主题词注意力层和所述第二主题词注意力层;将所述双向语义模型向量输入到所述第二自注意力层,将所述第二自注意力层的输出结果输入到所述第一主题词注意力层,将所述第一主题词注意力层的输出结果输入到所述第二前向传输层,将所述第二前向传输层的输出结果输入到所述编码解码注意力层;将所述第二主题词注意力层的输出结果输入到所述编码解码注意力层,将所述编码解码注意力层的输出结果输入到所述第三前向传输层,将所述第三前向传输层的输出结果输入到所述输出判别层,得到所述输出判别层输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
可选地,所述生成式文本生成模型为序列到序列Seq2Seq模型;
所述生成式文本生成模型至少包括:编码端和解码端;
所述编码端至少包括:注意力层。
可选地,所述第二候选集确定模块904具体用于,确定所述原始文本对应的双向语义模型向量以及主题词的词向量;将所述双向语义模型向量和所述主题词的词向量输入到所述注意力层和所述解码端,将所述注意力层的输出结果输入到所述解码端,得到所述解码端输出的第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标。
可选地,所述生成式文本生成模型为序列到序列Seq2Seq模型;
所述生成式文本生成模型至少包括:编码端和解码端;
所述编码端至少包括:第一自注意力层、第一前向传输层、第二自注意力层、第一主题词注意力层、第二前向传输层;
所述解码端至少包括:第二主题词注意力层、编码解码注意力层、第三前向传输层、Softmax层。
可选地,所述第二候选集确定模块904具体用于,确定所述原始文本对应的双向语义模型向量以及主题词的词向量;将所述主题词的词向量输入到所述第一自注意力层,将所述第一自注意力层的输出结果输入到所述第一前向传输层,将所述第一前向传输层的输出结果输入到所述第一主题词注意力层和所述第二主题词注意力层;将所述双向语义模型向量输入到所述第二自注意力层,将所述第二自注意力层的输出结果输入到所述第一主题词注意力层,将所述第一主题词注意力层的输出结果输入到所述第二前向传输层,将所述第二前向传输层的输出结果输入到所述编码解码注意力层;将所述第二主题词注意力层的输出结果输入到所述编码解码注意力层,将所述编码解码注意力层的输出结果输入到所述第三前向传输层,将所述第三前向传输层的输出结果输入到所述Softmax层,得到所述Softmax层输出的第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标。
可选地,所述选择模块906具体用于,按照对应的预测业务指标从高到底的顺序,对所述第一目标文本候选集和第二目标文本候选集中的各目标文本进行排序;按照各目标文本的排序从先到后的顺序,选择指定数量的目标文本,作为所述原始文本对应的目标文本。
可选地,所述选择模块906还用于,选择所述原始文本对应的目标文本之后,根据选择出的所述原始文本对应的各目标文本的预测业务指标,为所述原始文本对应的各目标文本分配流量;根据为所述原始文本对应的各目标文本分配的流量,发布所述原始文本和所述原始文本对应的各目标文本。
可选地,所述选择模块906还用于,发布所述原始文本和所述原始文本对应的各目标文本之后,监控所述原始文本对应的各目标文本对应的实际业务指标;根据监控到的所述原始文本对应的各目标文本对应的实际业务指标,调整为所述原始文本对应的各目标文本分配的流量。
本说明书实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的地图匹配方法。
本说明书实施例还提出了图10所示的电子设备的示意结构图。如图10,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的地图匹配方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (17)
1.一种文本生成的方法,其特征在于,所述方法包括:
获取原始文本;
根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标;所述抽取式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标;所述生成式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
根据所述第一目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,从所述第一目标文本候选集和第二目标文本候选集中的目标文本中,选择所述原始文本对应的目标文本。
2.如权利要求1所述的方法,其特征在于,所述抽取式文本生成模型至少包括双向长短期记忆层、注意力层、全连接层、输出判别层。
3.如权利要求2所述的方法,其特征在于,根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
对所述原始文本进行分句拼句处理,得到所述原始文本对应的各语句;
针对所述原始文本对应的每个语句,对该语句进行分词处理,得到该语句中包含的每个词语;
将该语句的每个词语的词向量输入所述抽取式文本生成模型,得到所述抽取式文本生成模型输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
4.如权利要求1所述的方法,其特征在于,所述抽取式文本生成模型至少包括卷积神经网络、隐层、双向长短期记忆层、注意力层、全连接层、输出判别层。
5.如权利要求4所述的方法,其特征在于,根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
将所述原始文本输入到所述卷积神经网络,将所述卷积神经网络的输出结果输入到所述隐层,将所述隐层的输出结果输入到所述全连接层;并,对所述原始文本进行分句拼句处理,得到所述原始文本对应的各语句,针对所述原始文本对应的每个语句,对该语句进行分词处理,得到该语句中包含的每个词语,将该语句的每个词语的词向量输入到所述双向长短期记忆层,将所述双向长短期记忆层的输出结果输入到所述注意力层,将所述注意力层的输出结果输入到所述全连接层;
将所述全连接层的输出结果输入到所述输出判别层,得到所述输出判别层输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
6.如权利要求1所述的方法,其特征在于,所述抽取式文本生成模型为序列到序列Seq2Seq模型;
所述抽取式文本生成模型至少包括:编码端和解码端;
所述编码端至少包括:第一自注意力层、第一前向传输层、第二自注意力层、第一主题词注意力层、第二前向传输层;
所述解码端至少包括:第二主题词注意力层、编码解码注意力层、第三前向传输层、输出判别层。
7.如权利要求6所述的方法,其特征在于,根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
确定所述原始文本对应的双向语义模型向量以及主题词的词向量;
将所述主题词的词向量输入到所述第一自注意力层,将所述第一自注意力层的输出结果输入到所述第一前向传输层,将所述第一前向传输层的输出结果输入到所述第一主题词注意力层和所述第二主题词注意力层;
将所述双向语义模型向量输入到所述第二自注意力层,将所述第二自注意力层的输出结果输入到所述第一主题词注意力层,将所述第一主题词注意力层的输出结果输入到所述第二前向传输层,将所述第二前向传输层的输出结果输入到所述编码解码注意力层;
将所述第二主题词注意力层的输出结果输入到所述编码解码注意力层,将所述编码解码注意力层的输出结果输入到所述第三前向传输层,将所述第三前向传输层的输出结果输入到所述输出判别层,得到所述输出判别层输出的第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标。
8.如权利要求1所述的方法,其特征在于,所述生成式文本生成模型为序列到序列Seq2Seq模型;
所述生成式文本生成模型至少包括:编码端和解码端;
所述编码端至少包括:注意力层。
9.如权利要求8所述的方法,其特征在于,根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
确定所述原始文本对应的双向语义模型向量以及主题词的词向量;
将所述双向语义模型向量和所述主题词的词向量输入到所述注意力层和所述解码端,将所述注意力层的输出结果输入到所述解码端,得到所述解码端输出的第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标。
10.如权利要求1所述的方法,其特征在于,所述生成式文本生成模型为序列到序列Seq2Seq模型;
所述生成式文本生成模型至少包括:编码端和解码端;
所述编码端至少包括:第一自注意力层、第一前向传输层、第二自注意力层、第一主题词注意力层、第二前向传输层;
所述解码端至少包括:第二主题词注意力层、编码解码注意力层、第三前向传输层、Softmax层。
11.如权利要求10所述的方法,其特征在于,根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,具体包括:
确定所述原始文本对应的双向语义模型向量以及主题词的词向量;
将所述主题词的词向量输入到所述第一自注意力层,将所述第一自注意力层的输出结果输入到所述第一前向传输层,将所述第一前向传输层的输出结果输入到所述第一主题词注意力层和所述第二主题词注意力层;
将所述双向语义模型向量输入到所述第二自注意力层,将所述第二自注意力层的输出结果输入到所述第一主题词注意力层,将所述第一主题词注意力层的输出结果输入到所述第二前向传输层,将所述第二前向传输层的输出结果输入到所述编码解码注意力层;
将所述第二主题词注意力层的输出结果输入到所述编码解码注意力层,将所述编码解码注意力层的输出结果输入到所述第三前向传输层,将所述第三前向传输层的输出结果输入到所述Softmax层,得到所述Softmax层输出的第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标。
12.如权利要求1所述的方法,其特征在于,从所述第一目标文本候选集和第二目标文本候选集中的目标文本中,选择所述原始文本对应的目标文本,具体包括:
按照对应的预测业务指标从高到底的顺序,对所述第一目标文本候选集和第二目标文本候选集中的各目标文本进行排序;
按照各目标文本的排序从先到后的顺序,选择指定数量的目标文本,作为所述原始文本对应的目标文本。
13.如权利要求12所述的方法,其特征在于,选择所述原始文本对应的目标文本之后,所述方法还包括:
根据选择出的所述原始文本对应的各目标文本的预测业务指标,为所述原始文本对应的各目标文本分配流量;
根据为所述原始文本对应的各目标文本分配的流量,发布所述原始文本和所述原始文本对应的各目标文本。
14.如权利要求13所述的方法,其特征在于,发布所述原始文本和所述原始文本对应的各目标文本之后,所述方法还包括:
监控所述原始文本对应的各目标文本对应的实际业务指标;
根据监控到的所述原始文本对应的各目标文本对应的实际业务指标,调整为所述原始文本对应的各目标文本分配的流量。
15.一种文本生成的装置,其特征在于,所述装置包括:
获取模块,用于获取原始文本;
第一候选集确定模块,用于根据所述原始文本和预设的抽取式文本生成模型,得到第一目标文本候选集和第一目标文本候选集中每个目标文本对应的预测业务指标;所述抽取式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
第二候选集确定模块,用于根据所述原始文本和预设的生成式文本生成模型,得到第二目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标;所述生成式文本生成模型是预先根据样本文本和样本文本对应的业务指标训练得到的;
选择模块,用于根据所述第一目标文本候选集和第二目标文本候选集中每个目标文本对应的预测业务指标,从所述第一目标文本候选集和第二目标文本候选集中的目标文本中,选择所述原始文本对应的目标文本。
16.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-14任一所述的方法。
17.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-14任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910189977.5A CN109992771B (zh) | 2019-03-13 | 2019-03-13 | 一种文本生成的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910189977.5A CN109992771B (zh) | 2019-03-13 | 2019-03-13 | 一种文本生成的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109992771A CN109992771A (zh) | 2019-07-09 |
CN109992771B true CN109992771B (zh) | 2020-05-05 |
Family
ID=67129451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910189977.5A Active CN109992771B (zh) | 2019-03-13 | 2019-03-13 | 一种文本生成的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992771B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11816422B1 (en) | 2022-08-12 | 2023-11-14 | Capital One Services, Llc | System for suggesting words, phrases, or entities to complete sequences in risk control documents |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991171B (zh) * | 2019-09-30 | 2023-10-13 | 奇安信科技集团股份有限公司 | 敏感词检测方法及装置 |
CN111274789B (zh) * | 2020-02-06 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 文本预测模型的训练方法及装置 |
CN111581455B (zh) * | 2020-04-28 | 2023-03-21 | 北京字节跳动网络技术有限公司 | 文本生成模型的生成方法、装置和电子设备 |
CN111783455B (zh) * | 2020-07-13 | 2024-06-04 | 网易(杭州)网络有限公司 | 文本生成模型的训练方法及装置、文本生成方法及装置 |
CN112489652A (zh) * | 2020-12-10 | 2021-03-12 | 北京有竹居网络技术有限公司 | 一种语音信息的文本获取方法、装置和存储介质 |
CN113157941B (zh) * | 2021-04-08 | 2023-04-18 | 支付宝(杭州)信息技术有限公司 | 业务特征数据处理、文本生成方法、装置及电子设备 |
CN113157909A (zh) * | 2021-04-14 | 2021-07-23 | 上海明略人工智能(集团)有限公司 | 一种文本生成摘要方法、***、电子设备及存储介质 |
CN115033678A (zh) * | 2022-08-09 | 2022-09-09 | 北京聆心智能科技有限公司 | 一种对话模型训练方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017028416A1 (zh) * | 2015-08-19 | 2017-02-23 | 小米科技有限责任公司 | 分类器训练方法、类型识别方法及装置 |
CN107832299A (zh) * | 2017-11-17 | 2018-03-23 | 北京百度网讯科技有限公司 | 基于人工智能的标题的改写处理方法、装置及可读介质 |
CN108959388A (zh) * | 2018-05-31 | 2018-12-07 | 科大讯飞股份有限公司 | 信息生成方法及装置 |
CN108984745A (zh) * | 2018-07-16 | 2018-12-11 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
CN109062937A (zh) * | 2018-06-15 | 2018-12-21 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN109376234A (zh) * | 2018-10-10 | 2019-02-22 | 北京京东金融科技控股有限公司 | 一种训练摘要生成模型的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595632B (zh) * | 2018-04-24 | 2022-05-24 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
-
2019
- 2019-03-13 CN CN201910189977.5A patent/CN109992771B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017028416A1 (zh) * | 2015-08-19 | 2017-02-23 | 小米科技有限责任公司 | 分类器训练方法、类型识别方法及装置 |
CN107832299A (zh) * | 2017-11-17 | 2018-03-23 | 北京百度网讯科技有限公司 | 基于人工智能的标题的改写处理方法、装置及可读介质 |
CN108959388A (zh) * | 2018-05-31 | 2018-12-07 | 科大讯飞股份有限公司 | 信息生成方法及装置 |
CN109062937A (zh) * | 2018-06-15 | 2018-12-21 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN108984745A (zh) * | 2018-07-16 | 2018-12-11 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
CN109376234A (zh) * | 2018-10-10 | 2019-02-22 | 北京京东金融科技控股有限公司 | 一种训练摘要生成模型的方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11816422B1 (en) | 2022-08-12 | 2023-11-14 | Capital One Services, Llc | System for suggesting words, phrases, or entities to complete sequences in risk control documents |
Also Published As
Publication number | Publication date |
---|---|
CN109992771A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992771B (zh) | 一种文本生成的方法及装置 | |
CN110032633B (zh) | 多轮对话处理方法、装置和设备 | |
CN110032730B (zh) | 一种文本数据的处理方法、装置和设备 | |
CN116227474B (zh) | 一种对抗文本的生成方法、装置、存储介质及电子设备 | |
CN110263158B (zh) | 一种数据的处理方法、装置及设备 | |
CN111144126A (zh) | 一种语义分析模型的训练方法、语义分析方法及装置 | |
CN112733024A (zh) | 一种信息推荐的方法及装置 | |
CN112417093B (zh) | 一种模型训练的方法及装置 | |
CN117076650B (zh) | 一种基于大语言模型的智能对话方法、装置、介质及设备 | |
CN113887206B (zh) | 一种模型训练及关键词提取方法及装置 | |
CN115455166A (zh) | 一种智能对话***异常检测的方法、装置、介质及设备 | |
CN117591661B (zh) | 一种基于大语言模型的问答数据构建方法及装置 | |
CN117369783B (zh) | 一种安全代码生成模型的训练方法及装置 | |
CN116227467A (zh) | 模型的训练方法、文本处理方法及装置 | |
CN113887235A (zh) | 一种信息推荐的方法及装置 | |
CN116127328B (zh) | 一种对话状态识别模型的训练方法、装置、介质及设备 | |
CN117216271A (zh) | 一种文章文本处理方法、装置以及设备 | |
CN113157941A (zh) | 业务特征数据处理、文本生成方法、装置及电子设备 | |
CN116662657A (zh) | 一种模型训练和信息推荐的方法、装置、存储介质及设备 | |
CN116186231A (zh) | 一种回复文本的生成方法、装置、存储介质及电子设备 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN114676257A (zh) | 一种对话主题确定方法及装置 | |
CN113344590A (zh) | 一种模型训练以及投诉率预估的方法及装置 | |
CN114115878A (zh) | 一种工作流节点推荐方法及装置 | |
CN111104591B (zh) | 一种推荐信息生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |