CN115757788A - 一种文本润色方法、装置及存储介质 - Google Patents

一种文本润色方法、装置及存储介质 Download PDF

Info

Publication number
CN115757788A
CN115757788A CN202211491239.4A CN202211491239A CN115757788A CN 115757788 A CN115757788 A CN 115757788A CN 202211491239 A CN202211491239 A CN 202211491239A CN 115757788 A CN115757788 A CN 115757788A
Authority
CN
China
Prior art keywords
text
model
retouching
rendering
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211491239.4A
Other languages
English (en)
Inventor
丁辉
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mobvoi Information Technology Co ltd
Original Assignee
Shanghai Mobvoi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mobvoi Information Technology Co ltd filed Critical Shanghai Mobvoi Information Technology Co ltd
Priority to CN202211491239.4A priority Critical patent/CN115757788A/zh
Publication of CN115757788A publication Critical patent/CN115757788A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种文本润色方法、装置及存储介质,所述方法包括:获取待润色文本,所述待润色文本包括至少一条自然语言语句;将所述待润色文本输入文本润色模型,得到第一润色结果;判断所述第一润色结果是否符合设定标准;在所述第一润色结果符合设定标准的情况下,将所述第一润色结果作为目标文本。由此,通过提前训练好的文本润色模型对文本进行润色,并进一步确定符合设定标准的润色后的文本为目标文本,可以高效地提高文本内容的质量,有效提升文本的润色水平。

Description

一种文本润色方法、装置及存储介质
技术领域
本申请涉及语言处理技术领域,尤其涉及一种文本润色方法、装置及存储介质。
背景技术
文本润色是指对文本包含的文字内容进行修饰和再加工,从而使得文本的内容更优雅、更流畅、更具有文采的过程,但目前的文本润色方式基本只是通过人工或简单的改写模型进行改写,文本润色水平低。
发明内容
本申请提供了一种文本润色方法、装置及存储介质,以至少解决现有技术中存在的以上技术问题。
根据本申请的第一方面,提供了一种文本润色方法,所述方法包括:获取待润色文本,所述待润色文本包括至少一条自然语言语句;将所述待润色文本输入文本润色模型,得到第一润色结果;判断所述第一润色结果是否符合设定标准;在所述第一润色结果符合所述设定标准的情况下,将所述第一润色结果作为目标文本。
在一可实施方式中,在所述第一润色结果符合所述设定标准的情况下,根据所述目标文本以及所述目标文本对应的待润色文本对所述文本润色模型进行更新。
在一可实施方式中,所述判断所述第一润色结果是否符合设定标准,包括:将所述第一润色结果以及所述第一润色结果对应的待润色文本输入预设的文采分类器,得到所述第一润色结果的分类结果;判断所述分类结果是否符合所述设定标准。
在一可实施方式中,所述预设的文采分类器采用以下操作得到:获取第一文本训练集,所述第一文本训练集包括多个原始句子以及对所述多个原始句子润色后的润色句子;基于所述第一文本训练集生成文采分类器。
在一可实施方式中,所述文本润色模型采用以下操作得到:获取第二文本训练集和第三文本训练集;根据所述第二文本训练集对初始的文本润色模型进行训练以使所述初始的文本润色模型进行语言学习,生成第一文本润色模型,所述第二文本训练集包括多个训练文本,所述训练文本包括至少一条自然语言语句;根据所述第三文本训练集对所述第一文本润色模型进行训练以使所述第一文本润色模型进行润色学习,生成最终的文本润色模型,所述第三文本训练集包括多个原始句子样本以及对所述多个原始句子样本润色后的润色句子样本;其中,所述初始的文本润色模型包括解码器和编码器。
在一可实施方式中,所述根据所述第二文本训练集对初始的文本润色模型进行训练以使所述初始的文本润色模型进行语言学习,生成第一文本润色模型,包括:对所述第二文本训练集中的多个训练文本进行破坏,得到多个破坏文本;将所述破坏文本作为初始的文本润色模型的输入并将所述破坏文本对应的训练文本作为所述初始的文本润色模型的输出对所述初始的文本润色模型进行训练以使所述初始的文本润色模型进行语言学习,生成第一文本润色模型。
在一可实施方式中,所述根据所述第三文本训练集对所述第一文本润色模型进行训练以使所述第一文本润色模型进行润色学习,生成最终的文本润色模型,包括:将所述第三文本集中的原始句子样本作为所述编码器的输入,得到所述原始句子样本对应的原始样本句向量;将所述原始样本句向量以及原始句子样本对应的润色句子样本作为所述解码器的输入,并将偏移的所述润色句子样本作为解码器的输出对所述第一文本润色模型进行训练以使所述第一文本润色模型进行润色学习,得到最终的文本润色模型。
在一可实施方式中,所述文本润色模型为BART模型。
根据本申请的第二方面,提供了一种文本润色装置,所述装置包括:文本获取模块,用于获取待润色文本,所述待润色文本包括至少一条自然语言语句;润色模块,用于将所述待润色文本输入文本润色模型,得到第一润色结果;判断模块,用于判断所述第一润色结果是否符合设定标准;文本确定模块,用于在所述第一润色结果符合所述设定标准的情况下,将所述第一润色结果作为目标文本。
根据本申请的第三方面,还提供了一种存储有计算机指令的瞬时计算机可读存储介质,所述计算机指令用于使计算机执行上述文本润色的方法。
根据本申请的第四方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请所述的文本润色方法。
本申请的文本润色方法、装置及存储介质,获取待润色文本,并将待润色文本输入文本润色模型,得到第一润色结果,之后判断第一润色结果是否符合设定标准,在第一润色结果符合设定标准的情况下将第一润色结果作为目标文本。由此,通过预先训练完成的文本润色模型自动对文本润色,并将符合设定标准的文本润色模型的输出作为目标文本,提高了文本润色的效率和水平。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本申请实施例文本润色方法的实现流程示意图;
图2示出了本申请实施例文本润色方法的第一润色结果判断方法的实现流程示意图;
图3示出了本申请实施例文本润色方法的文采分类器训练方法的实现流程示意图;
图4示出了本申请实施例文本润色方法的文本润色模型的训练方法的实现流程示意图;
图5示出了本申请实施例文本润色装置的模块示意图;
图6示出了本申请实施例电子设备的组成结构示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请实施例文本润色方法的实现流程示意图。
参见图1,本申请实施例提供了一种文本润色方法,该方法包括:操作101,获取待润色文本,待润色文本包括至少一条自然语言语句;操作102,将待润色文本输入文本润色模型,得到第一润色结果;操作103,判断第一润色结果是否符合设定标准;操作104,在第一润色结果符合设定标准的情况下,将第一润色结果作为目标文本。
在操作101中,待润色文本是指在实际应用中获取的需要进行润色的文本,如希望对某一文本进行润色,那么该文本即为润色文本。例如:为了提高学生的作文水平,并减少人工批改润色等工作量,需要对学生输入的作文进行快速的智能润色,学生输入的作文即为待润色文本。这里需要说明的是,待润色文本的长度可以根据实际需求确定,可以是以句号“。”为识别符,对一句话进行润色,也可以以换行符为识别符,对一个段落进行润色,还可以是将一篇文章或一本书的内容等以一个或多个文件作为待润色文本。
在操作102中,将待润色文本输入文本润色模型,得到第一润色结果。
文本润色模型可采用包括解码器和编码器的基础模型,通过至少两个阶段的训练得到,具体训练过程可参见图4的相关描述,在此不再赘述。
通过预先训练的文本润色模型,将待润色文本输入到文本润色模型即可得到第一润色结果,第一润色结果为文本润色模型的输出。如待润色文本为“考试失败后,小王心情不好,经常一个人发呆”,将待润色文本输入文本润色模型,文本润色模型即可输出“考试失利后,小王时常郁郁寡欢,常常一个人在那里发呆”,“考试失利后,小王时常郁郁寡欢,常常一个人在那里发呆”即为第一润色结果。由此,通过预先训练的文本润色模型能够对待润色文本进行自动润色处理,可以高效准确地提高文本内容的质量。
在本申请一实施方式中,文本润色模型是采用包括解码器(Encoder)和编码器(Decoder)的基础模型训练得到的,文本润色模型可以加载至GPU或CPU服务器以进行运行。采用文本润色模型生成第一润色结果的过程具体包括:将待润色文本通过正规化处理,然后使用标记化得到标记(token)序列,标记化(tokenization)指将文本拆分为标记的过程;将标记序列输入文本润色模型的编码器,得到润色句向量;解码器部分采用自回归的生成方式,通过贪心搜索(greedy search)或者集束搜索(beam search)等解码方式,得到第一润色结果。通过文本润色模型输出第一润色结果的过程可参考常规编码器-解码器模型的输出方式,因此,在此不再赘述。
在操作103中,判断第一润色结果是否符合设定标准。
在使用预先训练的文本润色模型的过程中,将待润色文本输入文本润色模型可以得到针对待润色文本进行润色的第一润色结果,第一润色结果即为待润色文本润色后的文本。在得到第一润色结果后,可以通过预设的设定标准对第一润色结果进行判断,判断第一润色结果是否符合设定标准。
具体的设定标准的判断过程可参见图2的相关描述,在此不再赘述。
在操作104中,在第一润色结果符合设定标准的情况下,将第一润色结果作为目标文本。
具体的,训练数据对模型的效果有很大的影响,在使用预先训练的文本润色模型的过程中,可以在文本润色模型输出的第一润色结果符合设定标准的情况下,将符合设定标准的输出确定为目标文本,以保存目标文本为之后的模型训练做训练数据储备。如此,能够通过将文本润色模型符合设定标准的输出作为目标文本的方式进行训练数据的积累,以用于后续文本润色模型的迭代更新。
在本申请这一实施方式中,如果第一润色结果不符合设定标准,可以通过人工复审等其他方式重新确定第一润色结果是否符合设定标准。
进一步的,在第一润色结果不符合设定标准的情况下,判定第一润色结果不是目标文本,可以直接将第一润色结果丢弃。对第一润色结果进行判断并确定为目标文本是为了将能够确定为目标文本的数据保存,以供后续文本润色模型的迭代训练使用,或提供给其他需要训练数据进行模型训练的模型使用。在第一润色结果不符合设定标准的情况下,第一润色结果可能为不好的数据,直接将不符合设定标准的第一润色结果丢弃不进行保存,而仅将符合设定标准的第一润色结果保存,能够确保储存的数据均为优质数据,使用优质的数据对模型进行训练能够有效提升模型的性能。
本申请实施例一种文本润色方法,获取待润色文本,并将待润色文本输入文本润色模型,得到第一润色结果,之后判断第一润色结果是否符合设定标准,在第一润色结果符合设定标准的情况下将第一润色结果作为目标文本。通过预先训练完成的文本润色模型自动对文本润色,有效提高了文本润色的效率和水平,并且将符合设定标准的文本润色模型的输出作为目标文本,能够实现训练数据的积累,从而进一步对模型进行优化,显著提升模型精度,进一步提升文本润色效率和润色效果。
在本申请一实施方式中,在第一润色结果符合所述设定标准的情况下,还根据目标文本以及目标文本对应的待润色文本对文本润色模型进行更新。
具体的,在使用文本润色模型的过程中,可以使用文本润色模型的输出目标文本以及目标文本对应的待润色文本对文本润色模型进行迭代更新。
举例说明,运用文本润色模型的过程中,可以同时输入需要进行润色的待润色文本几千乃至几万条至文本润色模型。文本润色模型可针对上千乃至上万条待润色文本输出润色后的润色文本,之后通过预设的设定标准确定符合设定标准的多个目标文本,最后可以通过多个目标文本以及多个目标文本对应的待润色文本对文本润色模型进行更新。由此,通过不断对文本润色模型进行迭代更新,可以对文本润色模型不断地优化,提升文本润色模型的性能。文本润色模型进行迭代更新的过程与文本润色模型训练的过程相同,具体可参考图4的相关描述,在此不再赘述。
图2示出了本申请实施例文本润色方法的第一润色结果判断的实现流程示意图。
参见图2,本申请实施例文本润色方法的第一润色结果判断的实现流程,至少包括:操作201,将第一润色结果以及第一润色结果对应的待润色文本输入预设的文采分类器,得到第一润色结果的分类结果;操作202,判断分类结果是否符合设定标准。
在操作201中,将第一润色结果以及第一润色结果对应的待润色文本输入预设的文采分类器,得到第一润色结果的分类结果。
具体的,可以通过分类器模型预先训练一个文采分类器,文采分类器模型的输入是待润色文本和对文本进行润色后的润色文本,文采分类器的输出衡量文采是否提升,以及文采是否提升的置信度,文采是否提升为润色句子相对待润色句子的文采是否有提升,这里润色文本即为第一润色结果。例如,分类器模型的输出结果包括0和1,0表示文采没有提升或变差,1表示文采有提升,若文采分类器的输出结果0的置信度为0.2,1的置信度为0.8,置信度阈值设置为0.7,可以确定润色句子相对待润色句子的文采有提升,则第一润色结果的分类结果为文采有提升。
在操作202中,判断分类结果是否符合设定标准。
具体的,设定标准可以预设为文采有提升,将第一润色结果输入到文采分类器得到的结果为文采有提升的情况下,确定第一润色结果符合设定标准。
由此,将通过文本润色模型得到的第一润色结果输入到文采分类器即可得到第一润色结果的分类结果,分类结果包括第一润色结果的文采是否有提升。
在本申请这一实施方式中,还进一步对文采有提升且置信度在0.5左右的第一润色结果进行复审,以确定第一润色结果是否符合设定标准。
具体的,在文采分类器输出第一润色结果的文采有提升的置信度为0.5左右的情况下,文采有提升或文采无提升的置信度相似,无法准确的确定文采是否有提升,对于此类的第一润色结果,还可以借助人工复审的方式再次对第一润色结果进行判断,判断第一润色结果是否符合设定标准。图3示出了本申请实施例文本润色方法的文采分类器训练方法的实现流程示意图。
参见图3,文采分类器可以采用以下操作得到:操作301,获取第一文本训练集,第一文本训练集包括多个原始句子以及对多个原始句子润色后的润色句子;操作302,基于第一文本训练集生成文采分类器。
具体的,首先可以通过一些基础的改写模型或者人工改写的方式,累积一批基础平行语料,基础平行语料包括多个原始句子以及对多个原始句子润色后的润色句子,对基础平行语料进行打标签得到第一文本训练集,其中,标签是一个二分类,表示润色句子相对于原始句子文采是否有提升,提升为1,没有提升或者变差为0。由此,基于第一文本训练集,可以训练一个文采分类器。之后将文本润色模型输出的针对待润色句子进行润色后的润色句子以及待润色文本组成润色数据对,将润色数据对输入文采分类器,即可使用文采分类器对润色数据对进行判断。
在本申请一实施方式中,还通过文采分类器的输出对文采分类器进行迭代更新,以对文采分类器进行不断优化,提升文采分类器的性能。
图4示出了本申请实施例文本润色方法的文本润色模型的训练方法的实现流程示意图。
参见图4,在本申请一实施方式中,文本润色模型可以采用以下操作得到:操作401,获取第二文本训练集和第三文本训练集;操作402,根据第二文本训练集对初始的文本润色模型进行训练以使文本润色模型进行语言学习,生成第一文本润色模型,第二文本训练集包括多个训练文本,训练文本包括至少一条自然语言语句;操作403,根据第三文本训练集对第一文本润色模型进行训练以使第一文本润色模型进行润色学习,生成最终的文本润色模型,第三文本训练集包括多个原始句子样本以及对多个原始句子样本润色后的润色句子样本;其中,初始的文本润色模型包括解码器和编码器。
在本申请这一实施方式中,初始的文本润色模型为解码器-编码器模型,例如T5模型、transformer模型等。
在操作401中,获取第二文本训练集和第三文本训练集。
在操作402中,通过第二文本训练集对初始的文本润色模型进行语言学习的训练,生成第一文本润色模型。其中,第二文本训练集包括多个训练文本,训练文本包括至少一条自然语言语句。
具体的,为了让初始的文本润色模型学习到更多的文采好的语言信息,可以从互联网获取一些经典的名篇佳作,包含国内外名著及中文翻译版本等语料,作为第二文本训练集。使用第二文本训练集对初始的文本润色模型进行训练以使初始的文本润色模型进行语言学习,得到具备语言能力的第一文本润色模型。
在本申请一实施方式中,操作402具体包括:对第二文本训练集中的多个训练文本进行破坏得到多个破坏文本,将破坏文本作为初始的文本润色模型的输入并将破坏文本对应的训练文本作为初始文本润色模型的输出对初始的文本润色模型进行训练,以使初始的文本润色模型进行语言学习,生成第一文本润色模型。
具体的,可以基于降噪(denoise)还原的方法对初始的文本润色模型进行训练,将训练文本进行预处理后,投入初始的文本润色模型的训练。首先将训练文本中的部分字符随机删除,并且随机重复训练文本中的部分词语或片段,获得逻辑用词被破坏的破坏文本,将破坏文本作为初始的文本润色模型的输入,将训练文本作为初始的文本润色模型的输出,进行模型训练,得到第一文本润色模型。
在操作403中,根据第三文本训练集对第一文本润色模型进行润色学习训练,生成最终的文本润色模型。其中,第三文本训练集包括多个原始句子样本以及对多个原始句子样本润色后的润色句子样本。
具体的,为了使第一文本润色模型具备润色能力,需要通过第三文本训练集对第一文本润色模型进行润色学习训练。
在本申请一实施方式中,操作403包括:将第三文本集中的原始句子样本作为编码器的输入,得到原始句子样本对应的原始样本句向量,之后将原始句子样本句向量以及原始句子样本对应的润色句子样本作为解码器的输入,并将偏移的润色句子样本作为解码器的输出对第一文本润色模型进行训练,得到最终的文本润色模型。
具体的,第三文本训练集包括多个原始句子样本以及对多个原始句子样本润色后的润色句子样本,多个原始句子样本和多个润色句子样本组成多个平行语料,即<原始句子样本,润色句子样本>这种句子对。依赖多个句子对<原始句子样本,润色句子样本>对第一文本润色模型进行训练,将原始句子样本经过编解码器得到原始句子句向量,解码器部分结合与原始句子句向量的交叉注意力机制,基于teacher-forcing(一种用来快速而有效地训练循环神经网络模型的方法)的方式,完成对第一文本润色模型的润色学习任务训练。对于第一文本润色模型的训练,常规的transformer模型的训练过程均可实现,因此,在此不在赘述。
在本申请一实施方式中,文本润色模型为BART模型。
BART模型是一种transformer结构的预训练语言模型,通过无监督的文本语料训练而成,BART模型不同于BERT或者GPT等单栈模型,BAR T模型具有双栈结构,包含一个双向的编码器和单向的解码器,模型本身通过降噪样本还原的方式做预训练任务。BART在很多NLP(Natural Lan guage Processing,自然语言处理)任务上效果都不错,在生成任务上性能表现也很优异,所以我们采用BART模型作为文本润色模型。
图5示出了本申请实施例文本润色装置的模块示意图。
参见图,基于上述文本润色方法,本申请实施例还提供了一种文本润色装置,该装置包括:文本获取模块501,用于获取待润色文本,所述待润色文本包括至少一条自然语言语句;润色模块502,用于将所述待润色文本输入文本润色目标文本润色模型,得到第一润色结果;判断模块503,用于判断所述第一润色结果是否符合设定标准;文本确定模块504,用于在所述第一润色结果符合所述设定标准的情况下,将所述第一润色结果作为目标文本。
在本申请一实施方式中,所述装置还包括:更新模块,用于在所述第一润色结果符合所述设定标准的情况下,根据所述目标文本以及所述目标文本对应的待润色文本对所述文本润色模型进行更新。
在本申请一实施方式中,判断模块包括:分类子模块,用于将所述第一润色结果输入预设的文采分类器,得到所述第一润色结果的分类结果;判断子模块,用于判断所述分类结果是否符合设定标准,所述分类结果包括文采润色程度以及置信度。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
图6示出了可以用来实施本申请的实施例的示例电子设备60的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,设备60包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备60操作所需的各种程序和数据。计算单元601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备60中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元606,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备60通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文本润色方法。例如,在一些实施例中,文本润色方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元606。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备60上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的文本润色方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本润色方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种文本润色方法,其特征在于,所述方法包括:
获取待润色文本,所述待润色文本包括至少一条自然语言语句;
将所述待润色文本输入文本润色模型,得到第一润色结果;
判断所述第一润色结果是否符合设定标准;
在所述第一润色结果符合所述设定标准的情况下,将所述第一润色结果作为目标文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述第一润色结果符合所述设定标准的情况下,根据所述目标文本以及所述目标文本对应的待润色文本对所述文本润色模型进行更新。
3.根据权利要求1所述的方法,其特征在于,所述判断所述第一润色结果是否符合设定标准,包括:
将所述第一润色结果以及所述第一润色结果对应的待润色文本输入预设的文采分类器,得到所述第一润色结果的分类结果;
判断所述分类结果是否符合所述设定标准。
4.根据权利要求3所述的方法,其特征在于,所述预设的文采分类器采用以下操作得到:
获取第一文本训练集,所述第一文本训练集包括多个原始句子以及对所述多个原始句子润色后的润色句子;
基于所述第一文本训练集生成文采分类器。
5.根据权利要求1所述的方法,其特征在于,所述文本润色模型采用以下操作得到:
获取第二文本训练集和第三文本训练集;
根据所述第二文本训练集对初始的文本润色模型进行训练以使所述初始的文本润色模型进行语言学习,生成第一文本润色模型,所述第二文本训练集包括多个训练文本,所述训练文本包括至少一条自然语言语句;
根据所述第三文本训练集对所述第一文本润色模型进行训练以使所述第一文本润色模型进行润色学习,生成最终的文本润色模型,所述第三文本训练集包括多个原始句子样本以及对所述多个原始句子样本润色后的润色句子样本;
其中,所述初始的文本润色模型包括解码器和编码器。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二文本训练集对初始的文本润色模型进行训练以使所述初始的文本润色模型进行语言学习,生成第一文本润色模型,包括:
对所述第二文本训练集中的多个训练文本进行破坏,得到多个破坏文本;
将所述破坏文本作为初始的文本润色模型的输入并将所述破坏文本对应的训练文本作为所述初始的文本润色模型的输出对所述初始的文本润色模型进行训练以使所述初始的文本润色模型进行语言学习,生成第一文本润色模型。
7.根据权利要求5的方法,其特征在于,所述根据第三文本训练集对所述第一文本润色模型进行训练以使所述第一文本润色模型进行润色学习,生成最终的文本润色模型,包括:
将所述第三训练文本集中的原始句子样本作为所述编码器的输入,得到所述原始句子样本对应的原始样本句向量;
将所述原始样本句向量以及原始句子样本对应的润色句子样本作为所述解码器的输入,并将偏移的所述润色句子样本作为所述解码器的输出对所述第一文本润色模型进行训练以使所述第一文本润色模型进行润色学习,得到最终的文本润色模型。
8.根据权利要求1所述的方法,其特征在于,所述文本润色模型为BART模型。
9.一种文本润色装置,其特征在于,所述装置包括:
文本获取模块,用于获取待润色文本,所述待润色文本包括至少一条自然语言语句;
润色模块,用于将所述待润色文本输入文本润色模型,得到第一润色结果;
判断模块,用于判断所述第一润色结果是否符合设定标准;
文本确定模块,用于在所述第一润色结果符合所述设定标准的情况下,将所述第一润色结果作为目标文本。
10.一种存储有计算机指令的瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法。
CN202211491239.4A 2022-11-25 2022-11-25 一种文本润色方法、装置及存储介质 Pending CN115757788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211491239.4A CN115757788A (zh) 2022-11-25 2022-11-25 一种文本润色方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211491239.4A CN115757788A (zh) 2022-11-25 2022-11-25 一种文本润色方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115757788A true CN115757788A (zh) 2023-03-07

Family

ID=85338066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211491239.4A Pending CN115757788A (zh) 2022-11-25 2022-11-25 一种文本润色方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115757788A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574860A (zh) * 2024-01-16 2024-02-20 北京蜜度信息技术有限公司 一种用于文本润色的方法与设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574860A (zh) * 2024-01-16 2024-02-20 北京蜜度信息技术有限公司 一种用于文本润色的方法与设备

Similar Documents

Publication Publication Date Title
CN112597753A (zh) 文本纠错处理方法、装置、电子设备和存储介质
CN112507706B (zh) 知识预训练模型的训练方法、装置和电子设备
CN112579727B (zh) 文档内容的提取方法、装置、电子设备及存储介质
CN112926306A (zh) 文本纠错方法、装置、设备以及存储介质
CN113407610B (zh) 信息抽取方法、装置、电子设备和可读存储介质
KR20210122204A (ko) 대화 감정 스타일의 예측 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN112784589A (zh) 一种训练样本的生成方法、装置及电子设备
CN112786108A (zh) 分子理解模型的训练方法、装置、设备和介质
CN113360001A (zh) 输入文本的处理方法、装置、电子设备和存储介质
CN115757788A (zh) 一种文本润色方法、装置及存储介质
CN112711943B (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN112989797B (zh) 模型训练、文本扩展方法,装置,设备以及存储介质
CN115860003A (zh) 一种语义角色分析方法、装置、电子设备及存储介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN113553833B (zh) 文本纠错的方法、装置及电子设备
CN115576983A (zh) 一种语句生成方法、装置、电子设备及介质
CN113641724B (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN115510860A (zh) 一种文本情感分析方法、装置、电子设备及存储介质
CN115357710A (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN113033179A (zh) 知识获取方法、装置、电子设备及可读存储介质
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质
CN112560466A (zh) 链接实体关联方法、装置、电子设备和存储介质
CN110704623A (zh) 基于Rasa_Nlu框架提高实体识别率的方法、装置、***和存储介质
CN113438428B (zh) 用于视频自动化生成的方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination