CN109002433B - 一种文本生成方法及装置 - Google Patents

一种文本生成方法及装置 Download PDF

Info

Publication number
CN109002433B
CN109002433B CN201810540691.2A CN201810540691A CN109002433B CN 109002433 B CN109002433 B CN 109002433B CN 201810540691 A CN201810540691 A CN 201810540691A CN 109002433 B CN109002433 B CN 109002433B
Authority
CN
China
Prior art keywords
sentence
character sequence
ith
character
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810540691.2A
Other languages
English (en)
Other versions
CN109002433A (zh
Inventor
祝文博
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Innovation Technology Co Ltd
Original Assignee
Mobvoi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobvoi Information Technology Co Ltd filed Critical Mobvoi Information Technology Co Ltd
Priority to CN201810540691.2A priority Critical patent/CN109002433B/zh
Publication of CN109002433A publication Critical patent/CN109002433A/zh
Application granted granted Critical
Publication of CN109002433B publication Critical patent/CN109002433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文本生成方法及装置,所述方法包括:获得关键词和待生成的目标文本所对应的题目,其中,所述关键词为所述待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分;基于所述关键词和所述题目,通过预先训练的文本生成模型,生成所述待生成的目标文本中的第一句文字序列;至少基于所述第一句文字序列和预设的韵母,通过所述文本生成模型,按照预设的押韵规则,生成所述待生成的目标文本中除所述第一句文字序列以外的其它文字序列;按照生成所述第一句文字序列和所述其它文字序列的先后顺序,将所述第一句文字序列和所述其它文字序列进行组合,获得押韵的目标文本。

Description

一种文本生成方法及装置
技术领域
本发明实施例涉及自然语言处理领域,尤其涉及一种文本生成方法及装置。
背景技术
使用计算机来自动生成文本如生成诗词、歌词、对话等的技术,属于自然语言处理领域,主要是以计算机语言学、人工智能、深度学习等技术为基础,来研究和模拟人类生成自然语言文本的过程和方法。诗歌是人类语言的结晶,具有格律、对仗、押韵等特点,而藏头诗是诗歌中一种特殊形式的诗体,它以每句诗的头一个字嵌入你要表达的内容中的一个字,藏头诗涵义深、品位高、价值重。
随着计算机语言学、人工智能以及深度学习的快速发展,目前常使用神经网络(Neural Networks,NN)作为编码器(Encoder)和解码器(Decoder)的seq2seq(Sequence toSequence,序列到序列)模型来生成文本。由于seq2seq模型是基于概率分布来生成文本中的每一句文字序列的,所以必然存在的一个问题就是往往通过该seq2seq模型直接生成的文本都是不押韵的,这极大影响了生成的文本的美感。可见,现有的生成文本的方法不够合理,生成效果不好。
发明内容
有鉴于此,本发明实施例提供一种文本生成方法及装置,本发明实施例的一个目的在于通过将文本生成模型和预设的押韵规则相结合,来生成预设的韵母对应的押韵的文本。
为达到上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供一种文本生成方法,包括:获得关键词和待生成的目标文本所对应的题目,其中,所述关键词为所述待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分;基于所述关键词和所述题目,通过预先训练的文本生成模型,生成所述待生成的目标文本中的第一句文字序列;至少基于所述第一句文字序列和预设的韵母,通过所述文本生成模型,按照预设的押韵规则,生成所述待生成的目标文本中除所述第一句文字序列以外的其它文字序列;按照生成所述第一句文字序列和所述其它文字序列的先后顺序,将所述第一句文字序列和所述其它文字序列进行组合,获得押韵的目标文本。
第二方面,本发明实施例提供一种文本生成装置,包括:第一获得单元、第一生成单元、第二生成单元以及第二获得单元,其中,所述第一获得单元,用于获得关键词和待生成的目标文本所对应的题目,其中,所述关键词为所述待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分;所述第一生成单元,用于基于所述关键词和所述题目,通过预先训练的文本生成模型,生成所述待生成的目标文本中的第一句文字序列;所述第二生成单元,用于至少基于所述第一句文字序列和预设的韵母,通过所述文本生成模型,按照预设的押韵规则,生成所述待生成的目标文本中除所述第一句文字序列以外的其它文字序列;所述第二获得单元,用于按照生成所述第一句文字序列和所述其它文字序列的先后顺序,将所述第一句文字序列和所述其它文字序列进行组合,获得押韵的目标文本。
第三方面,本发明实施例提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述文本生成方法。
第四方面,本发明实施例提供一种电子设备,包括:至少一个处理器;以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述文本生成方法。
本发明实施例提供的一种文本生成方法及装置,在获得关键词和待生成的目标文本所对应的题目后,其中,关键词为待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分,首先会基于关键词和题目,通过预先训练的文本生成模型,生成待生成的目标文本中的第一句文字序列。然后会至少基于第一句文字序列和预设的韵母,通过文本生成模型,按照预设的押韵规则,生成待生成的目标文本中除第一句文字序列以外的其它文字序列;最后,按照生成第一句文字序列和其它文字序列的先后顺序,将第一句文字序列和其它文字序列进行组合,就可以获得所需的押韵的目标文本。这样,由于所获得的待生成的目标文本中除第一句文字序列以外的其它文字序列,是根据预设的韵母按照预设的押韵规则来押韵生成的,从而,该其它文字序列是以预设的韵母押韵的,那么,通过第一句文字序列和该其它文字序列所生成的目标文本就是押韵的。如此,改善了生成文本的效果,提高了用户体验。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一中的文本生成方法的流程示意图;
图2为本发明实施例二中的文本生成***的示意图;
图3为本发明实施例二中的文本生成方法的流程示意图;
图4为本发明实施例三中的文本生成装置的结构示意图;
图5为本发明实施例四中的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
本发明实施例提供一种文本生成方法,该文本生成方法可以应用于各种需要进行生成押韵的文本的场合,如生成押韵的藏头诗、生成押韵的歌词、生成押韵的演讲稿等。
图1为本发明实施例一中的文本生成方法的流程示意图,参见图1所示,该文本生成方法包括:
S101:获得关键词和待生成的目标文本所对应的题目;
其中,关键词为待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分,题目为待生成的目标文本的名称。
在实施过程中,该关键词可以是用户在用户界面中直接输入的文字信息,如“小花真美”,也可以是从某一张图片中提取的文字信息,当然,还可以通过其他方式来获得该关键词,如根据用户的语音信息提取的文字信息,这里,本发明实施例不做具体限定。
在实际应用中,该关键词的字数可以根据待生成的目标文本的文本类型所对应的句数来确定。这里,待生成的目标文本的文本类型可以预先设定,也可以由用户操作来确定。其中,待生成的目标文本的文本类型可以为五言绝句、五言律诗、七言绝句、卜算子、如梦令、浣溪沙等。示例性地,当待生成的目标文本的文本类型为五言绝句时,该关键词的字数小于或者等于4;当待生成的目标文本的文本类型为七言律诗时,该关键词的字数小于或者等于8;当待生成的目标文本的文本类型为词牌名是浣溪沙的词时,该该关键词的字数小于或者等于6。当然,该关键词的字数也可以是由用户根据需要来设定。
在实际应用中,该题目可以是在预先设置的题目库中,随机自动选择的一个题目,如“卜算子·咏梅”、“登鹳雀楼”等,也可以是用户输入的文字信息,如“某一天”、“初次相遇”等,当然,还可以通过其他方式来获得该题目,如从预先存储的题目库中,根据该关键字的字数匹配一个题目,这里,本发明实施例不做具体限定。
示例性地,当用户想要生成一个押韵的目标文本,如押韵的藏头诗时,用户可以直接输入需要藏在目标文本中的关键词,然后生成文本的服务器收到用户输入的关键词后,服务器可以从题目库中选择一个题目作为该目标文本的名称,这样,就可以获得该关键词和题目。以便根据该关键词和题目生成对应的押韵的目标文本。
在本发明另一实施例中,当目标文本的类型为诗歌时,可以将古诗作为语料来训练seq2seq模型,以获得能够生成押韵的藏头诗的文本生成模型,那么,在上述S101之前,上述文本生成方法还包括:从预先存储的古诗库中,获取古诗;利用古诗的题目、古诗中的第一句以及第一句中的第一个字作为语料,训练得到第一seq2seq模型;利用古诗中的每一句及其对应的第一个字作为语料,训练得到第二seq2seq模型;利用古诗中的每一句作为语料,训练得到第三seq2seq模型;将第一seq2seq模型、第二seq2seq模型和第三seq2seq模型,确定为文本生成模型。
在具体实施过程中,首先,可以使用古诗的题目、古诗中的第一句以及第一句中的第一个字作为语料,训练出第一seq2seq模型,这样,就可以将所获得的关键词中的第一个字和题目输入到该第一seq2seq模型中来生成第一句诗;然后,使用古诗中的每一句及其对应的第一个字作为语料,训练出第二seq2seq模型,这样,当所获得的关键词中存在第k个字,而需要生成第k句诗时,就可以将所获得的关键词中的第k个字和第k-1句诗输入到第二seq2seq模型中来生成第k句诗,其中,k为大于或者等于2的正整数;最后,使用古诗中的每一句作为语料,训练出第三seq2seq模型,这样,在所获得的关键词中不存在第g个字,而需要生成第g句诗时,就可以仅将第g-1句诗输入到第三seq2seq模型中来生成第g句诗,其中,g为大于k的正整数。
当然,在实际应用中,使用不同的类型的预料,如文章、歌词、情诗、对话等,就可以训练出用于生成不同类型文本的文本生成模型。例如,可以将现有的情诗作为预料来训练seq2seq模型,以创建出能够生成押韵的藏头情诗的文本生成模型。这里,本发明实施例不做具体限定。
S102:基于关键词和题目,通过预先训练的文本生成模型,生成待生成的目标文本中的第一句文字序列;
具体地,在执行S101获得了关键词和题目后,为了生成待生成的目标文本中的第一句文字序列,可以将关键词中的第一个字和题目输入到该文本生成模型中来生成该第一句文字序列。
S103:至少基于第一句文字序列和预设的韵母,通过文本生成模型,按照预设的押韵规则,生成待生成的目标文本中除第一句文字序列以外的其它文字序列;
具体地,为了使得所生成的目标文本是押韵的,在通过S102生成了待生成的目标文本中的第一句文字序列后,如果关键词中除了第一个字外还有其它字,就可以根据该第一句文字序列、关键词中的其它字和预设的韵母,通过文本生成模型,来生成满足预设押韵规则的待生成的目标文本中除第一句文字序列以外的其它文字序列;如果关键词中除了第一个字外没有其它字,就可以根据该第一句文字序列和预设的韵母,通过文本生成模型,来生成满足预设押韵规则的待生成的目标文本中除第一句文字序列以外的其它文字序列。这样,由于所获得的待生成的目标文本中除第一句文字序列以外的其它文字序列是根据预设的韵母生成的,且满足预设的押韵规则,从而,根据第一句文字序列和该其它文字序列所生成的目标文本就是押韵的。
在实际应用中,根据待生成的目标文本的文本类型的不同,生成该目标文本时所对应使用的押韵规则是不同的,示例性地,当文本类型为律诗和绝句时,所对应的押韵规则可以为“偶数句押韵”;当文本类型为词牌名为浣溪沙的词时,所对应的押韵规则为“一韵到底”。那么,根据押韵规则的不同,生成待生成的目标文本中除第一句文字序列以外的其它文字序列的方法可以包括且不限于以下三种情况:
第一种情况,当押韵规则为“偶数句押韵”时,待生成的目标文本中偶数句的文字序列是押韵的。
在具体实施过程中,上述S103可以包括以下步骤:
步骤1031a:当i为2时,至少根据第一句文字序列,通过文本生成模型,生成第二句文字序列;
步骤1031b:当i为2n-1时,至少根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列,其中,n为大于或者等于2的正整数,i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数;
步骤1031c:当i为2n时,将第二句文字序列中的最后一个字的第一韵母确定为预设的韵母;至少根据第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第二句文字序列相押韵的第i句文字序列。
在实际应用中,待生成的目标文本中包含的文字序列的总句数N的大小可以由用户根据需要自行设定,如当用户需要生成28句的歌词时,N为28。总句数N的大小也可以根据用户选择的文本类型所对应的句数来决定,其中,文本类型可以为五言绝句、五言律诗、七言绝句、卜算子、如梦令、浣溪沙等。示例性地,当用户想要根据关键词和题目生成一首五言绝句时,N就等于4;当用户想要根据关键词和题目生成一首七言律诗时,N就等于8;当用户想要根据关键词和题目生成一首词牌名为浣溪沙的词时,N就等于6。当然,总句数N的大小也可以由***自动设定,本发明实施例不做具体限定。
下面以待生成的目标文本的文本序列的总句数N等于4为例,来说明如何生成满足偶数句押韵的规则的四句文字序列的具体过程。
首先,可以根据关键词和题目,通过该文本生成模型来生成第一句文字序列,其次,可以至少根据该第一句文字序列,通过该文本生成模型来生成第二句文字序列;然后,可以至少根据该第二句文字序列,通过该文本生成模型来生成第三句文字序列;最后,为了使得第四句文字序列与第二句文字序列相押韵,可以至少根据该第三句文字序列和该第二句文字序列中的最后一个字的第一韵母,通过该文本生成模型来生成与第二句文字序列相押韵的第四句文字序列。
示例性地,假设上述第二句文字序列中最后一个字为“汉”,上述第四句文字序列中最后一个字为“先”。在实际应用中,汉字的读音是由声母和韵母两部分组成的(少数汉字只有韵母)。对于“汉”而言,它的声母是h,韵母是an,合起来读han,对于“先”而言,它的声母是x,韵母是ian,合起来读xian。进一步地,表1中给出了一部分韵母韵部的映射关系,根据表1中所示的内容可知,可知“汉”和“先”所属的韵部(也可称为韵辙)是相同的,因此,第四句文字序列与第二句文字序列是押韵的。
Figure BDA0001679217040000071
Figure BDA0001679217040000081
表1
第二种情况,当押韵规则为“首句押韵+偶数句押韵”时,待生成的目标文本(包含N句文字序列)中,除了偶数句的文字序列是押韵的外,第一句文字序列也是押韵的。
在具体实施过程中,上述S103可以包括以下步骤:
步骤1032a:当i为2m时,将第一句文字序列中的最后一个字的第二韵母确定为预设的韵母;至少根据第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列,其中,m为大于或者等于1的正整数,i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数;
步骤1032b:当i为2m+1时,至少根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列。
示例性地,仍然以待生成的目标文本的文本序列的总句数N等于4为例,当押韵规则为“首句押韵+偶数句押韵”时,首先,在获得了第一句文字序列以后,为了使得首句押韵和偶数句押韵同时满足,可以至少根据该第一句文字序列和第一句文字序列中的最后一个字的第二韵母,通过该文本生成模型来生成与第一句文字序列押韵的第二句文字序列;然后,可以至少根据该第二句文字序列,通过该文本生成模型来生成第三句文字序列;最后,为了使得第四句文字序列与第一句文字序列相押韵,可以至少根据该第三句文字序列和该第一句文字序列中的最后一个字的第二韵母,通过该文本生成模型来生成与第一句文字序列相押韵的第四句文字序列。
第三种情况,当押韵规则为“句句押韵”时,待生成的目标文本(包含N句文字序列)中,每一句文本序列中的最后一个字的韵母所属的韵部是相同的。
在具体实施过程中,上述S103可以包括以下步骤:
步骤1033:将第一句文字序列中的最后一个字的第三韵母确定为预设的韵母;至少基于第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列,其中,i为大于或者等于2的正整数,且i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数。
示例性地,仍然以待生成的目标文本的文本序列的总句数N等于4为例,当押韵规则为“句句押韵”时,在获得了第一句文字序列后,就可以将第一句文字序列的最后一个字作为韵脚,通过该最后一个字的第二韵母,来生成与该第一句文字序列押韵的其它三句文字序列。
当然,上述押韵规则还可以为其它类型,如“相互交替押韵”即奇数句和偶数句各自押韵,本发明实施例不做具体限定。
此外,在本发明其它实施例中,为了将关键词藏于待生成的目标文本中的文字序列中,生成待生成的目标文本中除第一句文字序列以外的其它文字序列时,根据关键词中是否还存在关键字,上述步骤1031b或者上述步骤1032b可以包括:如果关键词中存在第i个字,根据第i-1句文字序列和关键词中的第i个字,通过文本生成模型,生成第i句文字序列,以使第i句文字序列中的第一个字为关键词中的第i个字;否则,根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列。
具体地,在生成目标文本中的第i句文字序列时,如果关键词中存在第i个字,此时,就需要将关键词中的第i个字作为即将生成的第i句文字序列中的首字,因此,可以将第i-1句文字序列和关键词中的第i个字,输入到文本生成模型中,以生成将该关键词中的第i个字作为首句的第i句文字序列。而在关键词中不存在第i个字时,就可以直接将第i句文字序列的前一句文字序列,即第i-1个文字序列,输入到文本生成模型中来生成第i句文字序列。
同理,在本发明其它实施例中,为了将关键词藏于待生成的目标文本中的文字序列中,生成待生成的目标文本中需要押韵的文本序列,如与第一句文字序列相押韵的第i句文字序列时,根据关键词中是否还存在关键字,在上述步骤1032a或者上述步骤1033中“至少基于第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列”的步骤,可以包括:如果关键词中存在第i个字,根据第i-1句文字序列、关键词中的第i个字和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列;否则,根据第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列。
在本发明另一实施例中,如果目标文本的文本类型为诗歌,可以采用上述第一seq2seq模型、第二seq2seq模型和第三seq2seq模型来实现上述文本生成模型,此时,上述S102可以包括:将关键词中的第一个字和题目输入到第一seq2seq模型中,生成第一句文字序列;
在本发明其它实施例中,如果目标文本的文本类型为诗歌,可以采用上述第一seq2seq模型、第二seq2seq模型和第三seq2seq模型来实现上述文本生成模型,在生成目标文本中的第i句文字序列的时候,如果关键词中存在第i个字,上述步骤1031b或者上述步骤1032b可以包括:将第i-1句文字序列和关键词中的第i个字输入到第二seq2seq模型中,生成第i句文字序列;在生成目标文本中的第i句文字序列的时候,如果关键词中不存在第i个字,上述步骤1031b或者上述步骤1032b可以包括:将第i-1句文字序列输入到第三seq2seq模型中,生成第i句文字序列。
同理,在本发明其它实施例中,如果目标文本的文本类型为诗歌,可以采用上述第一seq2seq模型、第二seq2seq模型和第三seq2seq模型来实现上述文本生成模型,为了将关键词藏于待生成的目标文本中的文字序列中,生成待生成的目标文本中需要押韵的文本序列,如与第一句文字序列相押韵的第i句文字序列时,根据关键词中是否还存在关键字,在上述步骤1032a或者上述步骤1033中“至少基于第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列”的步骤,可以包括:如果关键词中存在第i个字,根据第i-1句文字序列、关键词中的第i个字和预设的韵母,通过第二seq2seq模型,生成与第一句文字序列相押韵的第i句文字序列;否则,根据第i-1句文字序列和预设的韵母,通过第三seq2seq模型,生成与第一句文字序列相押韵的第i句文字序列。
S104:按照生成第一句文字序列和其它文字序列的先后顺序,将第一句文字序列和其它文字序列进行组合,获得押韵的目标文本。
示例性地,假设执行S102所获得的第一句文字序列为“刘来麋鹿或相随”,执行S103所获得的其它文字序列依次包括“德别人间别有时”、“落花流水向东西”、“帅郁飘飘不可知”这三句文字序列,那么,根据生成第一句文字序列和其它文字序列的先后顺序,将第一句文字序列和其它文字序列进行组合,获得押韵的目标文本如下所示:
刘来麋鹿或相随,
德别人间别有时。
落花流水向东西,
帅郁飘飘不可知。
至此,便完成了生成押韵的文本的过程。
由上述内容可知,本发明实施例所提供的文本生成方法,在获得关键词和待生成的目标文本所对应的题目后,其中,关键词为待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分,首先会基于关键词和题目,通过预先训练的文本生成模型,生成待生成的目标文本中的第一句文字序列。然后会至少基于第一句文字序列和预设的韵母,通过文本生成模型,按照预设的押韵规则,生成待生成的目标文本中除第一句文字序列以外的其它文字序列;最后,按照生成第一句文字序列和其它文字序列的先后顺序,将第一句文字序列和其它文字序列进行组合,就可以获得所需的押韵的目标文本。这样,由于所获得的待生成的目标文本中除第一句文字序列以外的其它文字序列,是根据预设的韵母并按照预设的押韵规则来押韵生成的,从而,该其它文字序列是以预设的韵母押韵的,那么,通过第一句文字序列和该其它文字序列所生成的目标文本就是押韵的。如此,在生成文本时,就能够改善生成文本的效果,提高用户体验。
实施例二
基于前述实施例,本实施例提供一种文本生成方法,应用于以下场景:待生成的目标文本的文本类型为诗歌,待生成的目标文本的总句数N为4,题目是从预设的题目库中随机选取的,目标文本所对应的押韵规则为“偶数句押韵”。
本发明实施例提供一种文本生成***,参见图2所示,该***包括:题目库201、第一seq2seq模型202、第二seq2seq模型203和第三seq2seq模型204;其中,题目库101是用于在获得关键词后随机选择目标题目的;第一seq2seq模型202是用古诗的题目、古诗中的第一句诗以及第一句诗的第一个字作为语料训练出的,用于根据输入的关键字和题目生成第一句诗;第二seq2seq模型203是用古诗的每一句诗和每一句诗对应的第一个字作为语料训练的,用于根据输入的关键字和上一句诗生成下一句诗;第三seq2seq模型204是用古诗的每一句诗作为语料训练的,用于根据上一句诗生成下一句诗,可在关键词中的关键字的总数小于总句数N时来补全缺少的诗句。
在实际应用中,seq2seq模型,如第一seq2seq模型、所述第二seq2seq模型和所述第三seq2seq模型等,包括:编码器(Encoder)和解码器(Decoder),在给seq2seq模型中输入文字序列A后,编码器通过学习输入的文字序列A,将输入的文字序列A编码成一个状态向量S,然后,将该状态向量S传递给解码器,解码器通过学习该状态向量S,使用搜索算法如Beam搜索(beam search)、贪婪搜索(greedy search)等,输出另一个文字序列B。
在实施过程中,为了生成押韵的文字序列B,即文字序列B中的最后一个字的韵母与预设的韵母属于相同的韵部,如果解码器在解码状态向量S时使用Beam搜索,可以依概率排序获得多个文字序列B,然后再以预设的韵母作为限制条件,搜索末尾字韵母和与预设的韵母属于相同的韵部的文字序列B作为生成结果。当然,如果解码器在解码状态向量S时使用贪婪搜索,可以在解码状态向量S时以预设的韵母来修正解码策略,以生成押韵的文字序列B。
图3为本发明实施例二中的文本生成方法的流程示意图,参见图3所示,该方法包括:
S301:获得关键词;
S302:从预设的题目库中,随机确定出一目标题目;
S303:将关键词中的第一个字和目标题目输入到第一seq2seq模型中,生成第一句诗;
S304:确定关键词中是否存在第二个字;
如果确定关键词中不存在第二个字,执行S305a,来生成第二句诗;否则,执行S305b,来生成第二句诗。
S305a:将第一句诗输入到第三seq2seq模型中,生成第二句诗;
在执行S305a获得了第二句诗后,执行S306至S307,来获得第三句诗和与第二句诗相押韵的第四句诗。
S306:将第二句诗输入到第三seq2seq模型中,生成第三句诗;
S307:将第三句诗和第二句诗中最后一个字的韵母输入到第三seq2seq模型中,生成与第二句诗相押韵的第四句诗;
在实际应用中,在将第三句诗和第二句诗中最后一个字的韵母输入到第三seq2seq模型中后,首先,第三seq2seq模型可以根据第三句诗,依概率生成多个第四句诗,然后,第三seq2seq模型会以第二句诗中最后一个字的韵母作为筛选条件,来过滤出与第二句诗相押韵的第四句诗。
S305b:将第一句诗和关键词中的第二个字输入到第二seq2seq模型中,生成第二句诗;
在执行S305b获得了第二句诗后,执行S308。
S308:确定关键词中是否存在第三个字;
如果确定关键词中不存在第三个字,执行S306至S307,来获得第三句诗和与第二句诗相押韵的第四句诗;否则,执行S309,来生成第三句诗。
S309:将第二句诗和关键词中的第三个字输入到第二seq2seq模型中,生成第三句诗;
在执行S309获得了第三句诗后,执行S310。
S310:确定关键词中是否存在第四个字;
如果确定关键词中不存在第四个字,执行S307,来与第二句诗相押韵的第四句诗;否则,执行S311,来生成与第二句诗相押韵的第四句诗。
S311:将第三句诗、关键词中的第四个字和第二句诗中最后一个字的韵母输入到第二seq2seq模型中,生成与第二句诗相押韵的第四句诗。
在实际应用中,在将第三句诗、关键词中的第四个字和第二句诗中最后一个字的韵母输入到第二seq2seq模型中后,首先,第二seq2seq模型可以根据第三句诗和关键词中的第四个字,依概率生成多个首字为该第四个字的第四句诗,然后,第三seq2seq模型会以第二句诗中最后一个字的韵母作为筛选条件,来过滤出与第二句诗相押韵的且首字为该第四个字的第四句诗。
S312:将第一句诗至第四句诗按生成的先后顺序进行排列,获得押韵的目标文本。
最后,在获得第一句诗、第二句诗、第三句诗和第四句诗后,就可以将第一句诗至第四句诗按生成的先后顺序进行排列,来获得押韵的目标文本。
由上述内容可知,在发明实施例中所提供的文本生成方法中,由于在获得了第一句诗、第二句诗、第三句诗后,是根据第二句诗中最后一个字的韵母生成的与第二句诗相押韵的第四句诗的,那么,通过第一句诗至第四句诗所生成的目标文本就是押韵的。如此,在生成文本时,就能够改善所生成的文本的效果,提高用户体验。
实施例三
基于同一发明构思,作为对上述方法的实现,本发明实施例提供了一种文本生成装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
图4为本发明实施例三中的文本生成装置的结构示意图,参见图4所示,该装置40包括:第一获得单元401、第一生成单元402、第二生成单元403以及第二获得单元404,其中,第一获得单元401,用于获得关键词和待生成的目标文本所对应的题目,其中,关键词为待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分;第一生成单元402,用于基于关键词和题目,通过预先训练的文本生成模型,生成待生成的目标文本中的第一句文字序列;第二生成单元403,用于至少基于第一句文字序列和预设的韵母,通过文本生成模型,按照预设的押韵规则,生成待生成的目标文本中除第一句文字序列以外的其它文字序列;第二获得单元404,用于按照生成第一句文字序列和其它文字序列的先后顺序,将第一句文字序列和其它文字序列进行组合,获得押韵的目标文本。
在本发明实施例中,第二生成单元,用于当i为2时,至少根据第一句文字序列,通过文本生成模型,生成第二句文字序列;当i为2n-1时,至少根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列,其中,n为大于或者等于2的正整数,i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数;当i为2n时,将第二句文字序列中的最后一个字的第一韵母确定为预设的韵母;至少根据第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第二句文字序列相押韵的第i句文字序列。
在本发明实施例中,第二生成单元,用于当i为2m时,将第一句文字序列中的最后一个字的第二韵母确定为预设的韵母;至少根据第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列,其中,m为大于或者等于1的正整数,i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数;当i为2m+1时,至少根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列。
在本发明实施例中,第二生成单元,用于如果关键词中存在第i个字,根据第i-1句文字序列和关键词中的第i个字,通过文本生成模型,生成第i句文字序列,以使第i句文字序列中的第一个字为关键词中的第i个字;否则,根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列。
在本发明其它实施例中,该装置还包括:获取单元、第一训练单元、第二训练单元、第三训练单元和确定单元,其中,获取单元,用于从预先存储的古诗库中,获取古诗;第一训练单元,用于利用古诗的题目、古诗中的第一句以及第一句中的第一个字作为语料,训练得到第一seq2seq模型;第二训练单元,用于利用古诗中的每一句及其对应的第一个字作为语料,训练得到第二seq2seq模型;第三训练单元,用于利用古诗中的每一句作为语料,训练得到第三seq2seq模型;确定单元,用于将第一seq2seq模型、第二seq2seq模型和第三seq2seq模型,确定为文本生成模型。
在本发明实施例中,第一生成单元,用于将关键词中的第一个字和题目输入到第一seq2seq模型中,生成第一句文字序列;第二生成单元,用于如果关键词中存在第i个字,将第i-1句文字序列和关键词中的第i个字输入到第二seq2seq模型中,生成第i句文字序列;还用于如果关键词中不存在第i个字,将第i-1句文字序列输入到第三seq2seq模型中,生成第i句文字序列。
在本发明实施例中,第二生成单元,用于将第一句文字序列中的最后一个字的第三韵母确定为预设的韵母;至少基于第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列,其中,i为大于或者等于2的正整数,且i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数。
上述文本生成装置包括处理器和存储器,上述第一获得单元、第一生成单元、第二生成单元、第二获得单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器可由中央处理器(Central Processing Unit,CPU)、微处理器(MicroProcessor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)、或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
存储器可能包括计算机可读介质中的非永久性存储器,随机存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(Flash RAM),存储器包括至少一个存储芯片。
基于同一发明构思,本发明实施例提供一种存储介质,其上存储有程序,该程序被处理器执行时实现上述文本生成方法。
基于同一发明构思,本发明实施例提供一种处理器,处理器用于运行程序,其中,程序运行时执行上述文本生成方法。
由于本实施例所介绍的文本生成装置为可以执行本发明实施例中的文本生成方法的装置,故而基于本发明实施例中所介绍的文本生成方法,本领域所属技术人员能够了解本实施例的文本生成装置的具体实施方式以及其各种变化形式,所以在此对于该文本生成装置如何实现本发明实施例中的文本生成方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中文本生成方法所采用的装置,都属于本申请所欲保护的范围。
在实际应用中,该文本生成装置可应用于电子设备中。电子设备可以以各种形式来实施。例如,本发明实施例中描述的电子设备可以包括诸如智能音箱、手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如智能电视、台式计算机、服务器等固定终端。
实施例四
基于同一发明构思,本发明实施例提供一种电子设备。图5为本发明实施例四中的电子设备的结构示意图,参见图5所示,该电子设备50包括:至少一个处理器51;以及与所述处理器51连接的至少一个存储器52、总线53;其中,所述处理器51、存储器52通过所述总线53完成相互间的通信;所述处理器51用于调用所述存储器52中的程序指令,以执行以下步骤:获得关键词和待生成的目标文本所对应的题目,其中,关键词为待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分;基于关键词和题目,通过预先训练的文本生成模型,生成待生成的目标文本中的第一句文字序列;至少基于第一句文字序列和预设的韵母,通过文本生成模型,按照预设的押韵规则,生成待生成的目标文本中除第一句文字序列以外的其它文字序列;按照生成第一句文字序列和其它文字序列的先后顺序,将第一句文字序列和其它文字序列进行组合,获得押韵的目标文本。
在本发明实施例中,上述处理器调用程序指令时还可执行以下步骤:当i为2时,至少根据第一句文字序列,通过文本生成模型,生成第二句文字序列;当i为2n-1时,至少根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列,其中,n为大于或者等于2的正整数,i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数;当i为2n时,将第二句文字序列中的最后一个字的第一韵母确定为预设的韵母;至少根据第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第二句文字序列相押韵的第i句文字序列。
在本发明实施例中,上述处理器调用程序指令时还可执行以下步骤:当i为2m时,将第一句文字序列中的最后一个字的第二韵母确定为预设的韵母;至少根据第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列,其中,m为大于或者等于1的正整数,i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数;当i为2m+1时,至少根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列。
在本发明实施例中,上述处理器调用程序指令时还可执行以下步骤:如果关键词中存在第i个字,根据第i-1句文字序列和关键词中的第i个字,通过文本生成模型,生成第i句文字序列,以使第i句文字序列中的第一个字为关键词中的第i个字;否则,根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列。
在本发明实施例中,上述处理器调用程序指令时还可执行以下步骤:从预先存储的古诗库中,获取古诗;利用古诗的题目、古诗中的第一句以及第一句中的第一个字作为语料,训练得到第一seq2seq模型;利用古诗中的每一句及其对应的第一个字作为语料,训练得到第二seq2seq模型;利用古诗中的每一句作为语料,训练得到第三seq2seq模型;将第一seq2seq模型、第二seq2seq模型和第三seq2seq模型,确定为文本生成模型。
在本发明实施例中,上述处理器调用程序指令时还可执行以下步骤:将关键词中的第一个字和题目输入到第一seq2seq模型中,生成第一句文字序列;如果关键词中存在第i个字,将第i-1句文字序列和关键词中的第i个字输入到第二seq2seq模型中,生成第i句文字序列;如果关键词中不存在第i个字,将第i-1句文字序列输入到第三seq2seq模型中,生成第i句文字序列。
在本发明实施例中,上述处理器调用程序指令时还可执行以下步骤:将第一句文字序列中的最后一个字的第三韵母确定为预设的韵母;至少基于第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第一句文字序列相押韵的第i句文字序列,其中,i为大于或者等于2的正整数,且i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,RAM和/或非易失性内存等形式,如ROM或Flash RAM。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质可以是ROM、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是快闪记忆体或其他内存技术、CD-ROM、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息;还可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种文本生成方法,其特征在于,所述方法包括:
获得关键词和待生成的目标文本所对应的题目,其中,所述关键词为所述待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分;
基于所述关键词和所述题目,通过预先训练的文本生成模型,生成所述待生成的目标文本中的第一句文字序列;
至少基于所述第一句文字序列和预设的韵母,通过所述文本生成模型,按照预设的押韵规则,生成所述待生成的目标文本中除所述第一句文字序列以外的其它文字序列;
按照生成所述第一句文字序列和所述其它文字序列的先后顺序,将所述第一句文字序列和所述其它文字序列进行组合,获得押韵的目标文本;所述至少基于所述第一句文字序列和预设的韵母,通过所述文本生成模型,按照预设的押韵规则,生成所述待生成的目标文本中除所述第一句文字序列以外的其它文字序列,包括:
当i为2时,至少根据所述第一句文字序列,通过所述文本生成模型,生成第二句文字序列;
当i为2n-1时,至少根据第i-1句文字序列,通过所述文本生成模型,生成第i句文字序列,其中,n为大于或者等于2的正整数,i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数;
当i为2n时,将第二句文字序列中的最后一个字的第一韵母确定为所述预设的韵母;至少根据第i-1句文字序列和所述预设的韵母,通过所述文本生成模型,生成与第二句文字序列相押韵的第i句文字序列;
所述至少根据所述第i-1句文字序列,通过所述文本生成模型,生成第i句文字序列,包括:
如果所述关键词中存在第i个字,根据第i-1句文字序列和所述关键词中的第i个字,通过所述文本生成模型,生成第i句文字序列,以使所述第i句文字序列中的第一个字为所述关键词中的第i个字;否则,根据第i-1句文字序列,通过所述文本生成模型,生成第i句文字序列。
2.根据权利要求1所述的方法,其特征在于,所述至少基于所述第一句文字序列和预设的韵母,通过所述文本生成模型,按照预设的押韵规则,生成所述待生成的目标文本中除所述第一句文字序列以外的其它文字序列,包括:
当i为2m时,将第一句文字序列中的最后一个字的第二韵母确定为所述预设的韵母;至少根据第i-1句文字序列和所述预设的韵母,通过所述文本生成模型,生成与第一句文字序列相押韵的第i句文字序列,其中,m为大于或者等于1的正整数,i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数;
当i为2m+1时,至少根据第i-1句文字序列,通过所述文本生成模型,生成第i句文字序列;
所述至少根据所述第i-1句文字序列,通过所述文本生成模型,生成第i句文字序列,包括:
如果所述关键词中存在第i个字,根据第i-1句文字序列和所述关键词中的第i个字,通过所述文本生成模型,生成第i句文字序列,以使所述第i句文字序列中的第一个字为所述关键词中的第i个字;否则,根据第i-1句文字序列,通过所述文本生成模型,生成第i句文字序列。
3.根据权利要求1或2所述的方法,其特征在于,在获得关键词和题目之前,所述方法还包括:
从预先存储的古诗库中,获取古诗;
利用所述古诗的题目、所述古诗中的第一句以及所述第一句中的第一个字作为语料,训练得到第一seq2seq模型;
利用述古诗中的每一句及其对应的第一个字作为语料,训练得到第二seq2seq模型;
利用所述古诗中的每一句作为语料,训练得到第三seq2seq模型;
将所述第一seq2seq模型、所述第二seq2seq模型和所述第三seq2seq模型确定为所述文本生成模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述关键词和所述题目,通过预先训练的文本生成模型,生成所述待生成的目标文本中的第一句文字序列,包括:将所述关键词中的第一个字和所述题目输入到所述第一seq2seq模型中,生成第一句文字序列;
所述如果所述关键词中存在第i个字,根据第i-1句文字序列和所述关键词中的第i个字,通过所述文本生成模型,生成第i句文字序列,包括:将所述第i-1句文字序列和所述关键词中的第i个字输入到所述第二seq2seq模型中,生成第i句文字序列;
所述如果所述关键词中不存在第i个字,根据第i-1句文字序列,生成第i句文字序列,包括:将所述第i-1句文字序列输入到所述第三seq2seq模型中,生成第i句文字序列。
5.根据权利要求1所述的方法,其特征在于,所述至少基于所述第一句文字序列和预设的韵母,通过所述文本生成模型,按照预设的押韵规则,生成所述待生成的目标文本中除所述第一句文字序列以外的其它文字序列,包括:
将第一句文字序列中的最后一个字的第三韵母确定为所述预设的韵母;至少基于第i-1句文字序列和所述预设的韵母,通过所述文本生成模型,生成与第一句文字序列相押韵的第i句文字序列,其中,i为大于或者等于2的正整数,且i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数。
6.一种文本生成装置,其特征在于,所述装置包括:第一获得单元、第一生成单元、第二生成单元以及第二获得单元,其中,
所述第一获得单元,用于获得关键词和待生成的目标文本所对应的题目,其中,所述关键词为所述待生成的目标文本中的每一句文字序列的首字所组成的文字序列中的一部分;
所述第一生成单元,用于基于所述关键词和所述题目,通过预先训练的文本生成模型,生成所述待生成的目标文本中的第一句文字序列;
所述第二生成单元,用于至少基于所述第一句文字序列和预设的韵母,通过所述文本生成模型,按照预设的押韵规则,生成所述待生成的目标文本中除所述第一句文字序列以外的其它文字序列;
所述第二获得单元,用于按照生成所述第一句文字序列和所述其它文字序列的先后顺序,将所述第一句文字序列和所述其它文字序列进行组合,获得押韵的目标文本;
所述第二生成单元,用于当i为2时,至少根据第一句文字序列,通过文本生成模型,生成第二句文字序列;当i为2n-1时,至少根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列,其中,n为大于或者等于2的正整数,i为小于或者等于N的正整数,N为待生成的目标文本中包含的文字序列的总句数;当i为2n时,将第二句文字序列中的最后一个字的第一韵母确定为预设的韵母;至少根据第i-1句文字序列和预设的韵母,通过文本生成模型,生成与第二句文字序列相押韵的第i句文字序列;
所述第二生成单元,用于如果关键词中存在第i个字,根据第i-1句文字序列和关键词中的第i个字,通过文本生成模型,生成第i句文字序列,以使第i句文字序列中的第一个字为关键词中的第i个字;否则,根据第i-1句文字序列,通过文本生成模型,生成第i句文字序列。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1至5任一项所述的文本生成方法。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;
其中,所述处理器、存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至5任一项所述的文本生成方法。
CN201810540691.2A 2018-05-30 2018-05-30 一种文本生成方法及装置 Active CN109002433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810540691.2A CN109002433B (zh) 2018-05-30 2018-05-30 一种文本生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810540691.2A CN109002433B (zh) 2018-05-30 2018-05-30 一种文本生成方法及装置

Publications (2)

Publication Number Publication Date
CN109002433A CN109002433A (zh) 2018-12-14
CN109002433B true CN109002433B (zh) 2022-04-01

Family

ID=64574195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810540691.2A Active CN109002433B (zh) 2018-05-30 2018-05-30 一种文本生成方法及装置

Country Status (1)

Country Link
CN (1) CN109002433B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767694B (zh) * 2019-03-26 2024-04-16 北京京东尚科信息技术有限公司 文本生成方法、装置和计算机可读存储介质
CN110134960A (zh) * 2019-05-15 2019-08-16 北京奇艺世纪科技有限公司 一种文本的生成方法及相关设备
CN110209803B (zh) * 2019-06-18 2023-11-14 腾讯科技(深圳)有限公司 故事生成方法、装置、计算机设备及存储介质
CN110377902B (zh) * 2019-06-21 2023-07-25 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置
CN110287489B (zh) * 2019-06-24 2023-07-28 北京大米科技有限公司 文本生成方法、装置、存储介质和电子设备
CN110705310B (zh) * 2019-09-20 2023-07-18 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN111444679B (zh) * 2020-03-27 2024-05-24 北京小米松果电子有限公司 诗词生成方法及装置、电子设备、存储介质
CN111783455B (zh) * 2020-07-13 2024-06-04 网易(杭州)网络有限公司 文本生成模型的训练方法及装置、文本生成方法及装置
CN111898339B (zh) * 2020-07-28 2023-07-21 中国平安人寿保险股份有限公司 基于约束解码的古诗生成方法、装置、设备及介质
CN116011431A (zh) * 2023-03-22 2023-04-25 暗链科技(深圳)有限公司 助记词的生成方法及电子设备
CN115994532A (zh) * 2023-03-22 2023-04-21 暗链科技(深圳)有限公司 语料分类方法、非易失性可读存储介质及电子设备
CN116011430B (zh) * 2023-03-22 2024-04-02 暗链科技(深圳)有限公司 韵脚去重方法、非易失性可读存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385596A (zh) * 2010-09-03 2012-03-21 腾讯科技(深圳)有限公司 一种诗句的搜索方法及装置
CN105185373A (zh) * 2015-08-06 2015-12-23 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN105955964A (zh) * 2016-06-13 2016-09-21 北京百度网讯科技有限公司 一种自动生成诗歌的方法和装置
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法
CN106776517A (zh) * 2016-12-20 2017-05-31 科大讯飞股份有限公司 自动作诗方法和装置及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385596A (zh) * 2010-09-03 2012-03-21 腾讯科技(深圳)有限公司 一种诗句的搜索方法及装置
CN105185373A (zh) * 2015-08-06 2015-12-23 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN105955964A (zh) * 2016-06-13 2016-09-21 北京百度网讯科技有限公司 一种自动生成诗歌的方法和装置
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法
CN106776517A (zh) * 2016-12-20 2017-05-31 科大讯飞股份有限公司 自动作诗方法和装置及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Can M achine Generate Traditional Chinese Po etry? A Feigenbaum Test;Qixin Wang 等;《Springer International Publishing AG 2016》;20161231;第1-13页 *
Generating Chinese Classical Poems with RNN Encoder-Decoder;Xiaoyuan Yi 等;《Springer International Publishing AG 2017》;20171231;第1-13页 *
基于深度学习技术的中国传统诗歌生成方法研究;王哲;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20180115;第1-15页 *
王哲.基于深度学习技术的中国传统诗歌生成方法研究.《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》.2018,第1-15页. *

Also Published As

Publication number Publication date
CN109002433A (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
CN109002433B (zh) 一种文本生成方法及装置
CN110717017B (zh) 一种处理语料的方法
Yi et al. Generating chinese classical poems with rnn encoder-decoder
US8589163B2 (en) Adapting language models with a bit mask for a subset of related words
CN111639163A (zh) 问题生成模型的训练方法、问题生成方法及其相关设备
KR102139387B1 (ko) 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치
KR20210146368A (ko) 숫자 시퀀스에 대한 종단 간 자동 음성 인식
Chimakonam The “demise” of philosophical universalism and the rise of conversational thinking in contemporary African philosophy
CN111951780B (zh) 语音合成的多任务模型训练方法及相关设备
Zuberbühler Evolutionary roads to syntax
US11282502B2 (en) Method for utterance generation, smart device, and computer readable storage medium
CN110209803B (zh) 故事生成方法、装置、计算机设备及存储介质
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN111767394A (zh) 一种基于人工智能专家***的摘要提取方法及装置
CN117115303A (zh) 用于内容生成的方法、***、计算设备和存储介质
CN116127003A (zh) 文本处理方法、装置、电子设备及存储介质
CN114880485A (zh) 阅读理解答案生成的方法、装置、计算机设备和存储介质
CN110377915B (zh) 文本的情感分析方法、装置、存储介质及设备
JP2021193608A (ja) 発話生成装置、発話生成方法、及びコンピュータプログラム
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
CN112861546A (zh) 获取文本语义相似值的方法、装置、存储介质及电子设备
WO2019087064A1 (en) Language learning system and methods
Thabet et al. Q&A generation for flashcards within a transformer-based framework
CN117009574B (zh) 热点视频模板的生成方法、***、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221206

Address after: 210034 floor 8, building D11, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee after: New Technology Co.,Ltd.

Address before: 100094 1001, 10th floor, office building a, 19 Zhongguancun Street, Haidian District, Beijing

Patentee before: MOBVOI INFORMATION TECHNOLOGY Co.,Ltd.