CN115688685A - 文本处理方法、装置、电子设备及存储介质 - Google Patents

文本处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115688685A
CN115688685A CN202110865873.9A CN202110865873A CN115688685A CN 115688685 A CN115688685 A CN 115688685A CN 202110865873 A CN202110865873 A CN 202110865873A CN 115688685 A CN115688685 A CN 115688685A
Authority
CN
China
Prior art keywords
text
sentence
sample
target
modified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110865873.9A
Other languages
English (en)
Inventor
姜博然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Beijing BOE Technology Development Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Beijing BOE Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd, Beijing BOE Technology Development Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202110865873.9A priority Critical patent/CN115688685A/zh
Publication of CN115688685A publication Critical patent/CN115688685A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本处理方法、装置、电子设备及存储介质,属于计算机技术领域。本公开实施例中,可以获取输入的待处理文本,并在预设文本库中,选取与待处理文本相匹配且满足预设要求的参考文本,再在所参考文本中,确定与所待处理文本中待修饰句相似的目标参考句,最后,根据目标语句转换模型,对待修饰句按照目标参考句进行转换,得到待修饰句对应的目标推荐句。这样,通过语句转换模型,将待修饰句按照目标参考句进行转换,可以得到用词更为准确、表述方式更符合审核人员习惯的目标推荐句,从而可以实现对文本表述内容及表述方式的调整,无需用户手动修改文本即可得到高质量的撰写文本,提高了文本处理的效率。

Description

文本处理方法、装置、电子设备及存储介质
技术领域
本公开属于计算机技术领域,特别是涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
随着机器学习等计算机技术近几年的快速发展,人们常常使用机器学习模型解决各种问题。其中,随着文本处理的要求越来越多,这也使得自然语言处理(NaturalLanguage Processing,NLP)技术的发展越来越快。比如,在工作或学习中,往往要求用户撰写的文本为高质量文本,即,为用词与表述方式更高级的文本,尤其对于撰写语言为非母语的人员来说,撰写难度较大,且要花费较多时间。
相关技术中,自然语言处理方法主要集中在语法纠错领域。因此,现在急需一种可以调整文本表述内容及表述方式的文本处理方法。
发明内容
为克服相关技术中存在的问题,本公开提供一种文本处理方法、装置、电子设备及存储介质。
依据本公开的第一方面,提供了一种文本处理方法,该方法包括:
获取输入的待处理文本;
在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;
在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;
根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。可选的,所述预设文本库中存储有多个样本文本;
所述在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本,包括:
确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签;
对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本;
筛选属于所述目标领域的样本文本,作为第二类型文本;
将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。
可选的,所述确定所述待处理文本所属的目标领域,包括:
获取所述待处理文本中的关键词;
将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。
可选的,所述方法还包括:
对所述样本文本拆分,得到不同内容属性对应的文本片段;
按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预设文本库中。
可选的,所述在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句,包括:
确定所述待处理文本中的待修饰句;
根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。
可选的,所述根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句,包括:
利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句;
对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。
可选的,所述方法还包括:
获取多个样本语句;
对所述样本语句按照预设翻译方法翻译,得到样本翻译语句;
将所述样本语句与所述样本翻译语句作为一个训练样本对;
利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。
可选的,所述方法还包括:
将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。
可选的,所述初始语句转换模型为Transformer模型。
依据本公开的第二方面,提供了一种文本处理装置,该装置包括:
第一获取模块,用于获取输入的待处理文本;
选取模块,在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;
第一确定模块,用于在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;
转换模块,用于根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。
可选的,所述预设文本库中存储有多个样本文本;
所述选取模块,还用于:
确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签;
对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本;
筛选属于所述目标领域的样本文本,作为第二类型文本;
将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。
可选的,所述选取模块,还用于:
获取所述待处理文本中的关键词;
将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。
可选的,所述装置还包括:
拆分模块,用于对所述样本文本拆分,得到不同内容属性对应的文本片段;
存储模块,用于按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预设文本库中。
可选的,所述第一确定模块,还用于:
确定所述待处理文本中的待修饰句;
根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。
可选的,所述第一确定模块,还用于:
利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句;
对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。
可选的,其特征在于,所述装置还包括:
第二获取模块,用于获取多个样本语句;
翻译模块,用于对所述样本语句按照预设翻译方法翻译,得到样本翻译语句;
第二确定模块,用于将所述样本语句与所述样本翻译语句作为一个训练样本对;
训练模块,用于利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。
可选的,所述装置还包括:
设置模块,用于将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。
可选的,所述初始语句转换模型为Transformer模型。
依据本公开的第三方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面中任一项所述的文本处理方法。
依据本公开的第四方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够如第一方面中任一项所述的文本处理方法。
依据本公开的第五方面,提供了一种计算机程序产品,该计算机程序产品包括可读性程序指令,该可读性程序指令由移动终端的处理器执行时,使得移动终端能够执行如上述任一个实施例中的文本处理方法中的步骤。
本公开相比于相关技术,具有如下的优点和积极效果:
本公开实施例提供的文本处理方法,可以获取输入的待处理文本,并在预设文本库中,选取与待处理文本相匹配且满足预设要求的参考文本,再在所参考文本中,确定与所待处理文本中待修饰句相似的目标参考句,最后,根据目标语句转换模型,对待修饰句按照目标参考句进行转换,得到待修饰句对应的目标推荐句。这样,通过语句转换模型,将待修饰句按照目标参考句进行转换,可以得到用词更为准确、表述方式更符合审核人员习惯的目标推荐句,从而可以实现对文本表述内容及表述方式的调整,无需用户手动修改文本即可得到高质量的撰写文本,提高了文本处理的效率。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本公开实施例提供的一种文本处理方法的步骤流程图;
图2是本公开实施例提供的一种文本处理示意图;
图3是本公开实施例提供的一种文本处理装置的框图;
图4是根据一示例性实施例示出的一种用于文本处理的装置的框图;
图5是根据一示例性实施例示出的另一种用于文本处理的装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是本公开实施例提供的一种文本处理方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、获取输入的待处理文本。
本公开实施例中,待处理文本可以是需要对表述方式进行调整的文本,获取输入的待处理文本,可以是将用户选定的需要调整的文本,作为待处理文本。例如,在显示界面上显示有“上传论文”的按钮,通过点击该按钮,可以选中需要调整的文本,作为上传的文本,相应地,该文本可以确定为待处理文本。
步骤102、在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本。
本公开实施例中,选取与待处理文本相匹配的文本,可以是选取与待处理文本中的某一属性相同的文本,比如,该属性可以是文本所属的技术领域,也可以是文本包含的关键词,还可以是文本发表报刊,等等。预设要求可以是对文本按照某一维度进行排序,将排名前N个文本作为满足预设要求的文本,N为正整数,例如,该预设要求可以是按照文本的引用量多少排序,则满足预设要求的文本可以是引用量最多的前N个文本;该预设要求也可以是按照文本发表期刊对应的标签大小排序,则满足预设要求的文本可以是发表期刊对应的标签最大的前N个文本,对此本公开不做限制。
本公开实施例中,选取与所述待处理文本相匹配且满足预设要求的参考文本,可以是先选取与待处理文本相匹配的文本,再从相匹配的文本中选取满足预设要求的文本,作为参考文本,也可以是先选取满足预设要求的文本,再从满足预设要求的文本中选取相匹配的文本,作为参考文本,还可以是同时选取与待处理文本相匹配的文本,以及满足预设要求的文本,将同时属于相匹配且满足预设要求的文本作为参考文本。
需要说明的是,预设文本库可以是预先存储的文本,该文本可以是发表于指定期刊上的文章,也可以是属于某一技术领域的文献,还可以是某一作者撰写的论文,等等,本公开对此不做限制。相较于待处理文本,预设文本库中存储的文本,往往已经是由专业人员审核通过的文本,因此,预设文本库中的文本相较于待处理文本,具有用词更为准确,表述方式更符合审核人员习惯的优势。
步骤103、在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句。
本公开实施例中,可以是分别计算参考文本中的每一句与待修饰句的相似度,将相似度大于预设阈值的句子,作为该待修饰句相似的目标参考句。其中,相似度可以是根据表述内容的相似程度确定的,也可以是根据表述方式的相似程度确定的,对此本公开不做限制。
步骤104、根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。
本公开实施例中,目标语句转换模型可以是根据样本语句与样本翻译语句作为训练样本对,对初始语句转换模型进行迭代训练得到的。通过不断的迭代训练,使得语句转换模型可以学习到在表述内容不变的前提下,按照目标表述方式转换语句的能力。因此,本公开实施例中,可以利用训练得到的语句转换模型将待修饰句按照目标参考句进行转换,得到待修饰句对应的目标推荐句。
综上所述,本公开实施例提供的文本处理方法,可以获取输入的待处理文本,并在预设文本库中,选取与待处理文本相匹配且满足预设要求的参考文本,再在所参考文本中,确定与所待处理文本中待修饰句相似的目标参考句,最后,根据目标语句转换模型,对待修饰句按照目标参考句进行转换,得到待修饰句对应的目标推荐句。这样,通过语句转换模型,将待修饰句按照目标参考句进行转换,可以得到用词更为准确、表述方式更符合审核人员习惯的目标推荐句,从而可以实现对文本表述内容及表述方式的调整,无需用户手动修改文本即可得到高质量的撰写文本,提高了文本处理的效率。
可选的,本公开实施例中预设文本库中存储有多个样本文本,该样本文本可以是发表在指定期刊上的文章,比如,可以是发表在学术期刊上的所有文章,也可以发表在国外杂志上的文章,上述在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本的操作,可以具体包括:
步骤1021、确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签。
本公开实施例中,确定待处理文本所属的目标领域,可以是通过待处理文本的内容,来确定待处理文本所属的目标领域,也可以是在待处理文本中标明有所属领域,将该领域作为目标领域,还可以是获取用户输入的指定领域,将该指定领域作为待处理文本所属的领域。
本公开实施例中,样本文本的价值标签可以是根据样本文本所发表的期刊等级确定的,具体的,先确定样本文本发送的期刊,比如,样本发表在期刊X上,再根据该期刊对应的评价参数,来确定样本文本的价值标签,比如,期刊X的评价参数为7,则该样本文本的价值标签为7。
步骤1022、对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本。
本公开实施例中,可以是利用预设的归类算法对价值标签进行归类处理,该预设的归类算法可以是图卷积神经网络(Graph Convolutional Network,GCN)中的基于知识图谱的推荐算法(KGCN模型)。具体的,可以是通过随机选择多个学术期刊中的文章,并针对每一文章构建对应的知识图谱,即,按照各个内容属性对文章分解后得到的知识图谱,然后,按照学术期刊中各个分区对应的评价参数分别设置价值标签,比如,学术期刊一区对应的价值标签为10,学术期刊二区对应的价值标签为7,学术期刊三区对应的价值标签为4,学术期刊四区对应的价值标签为2,将多个学术期刊上的文章与每一文章对应的价值标签输入到图卷积KGCN模型进行训练,KGCN模型是通过文章在知识图谱上传播来抽取出对最终价值标签的数值影响较大的部分,其中,原理可以为使用一定范围的相邻节点通过不断地聚合迭代,并使用聚合后的向量替换当前节点的向量表示,聚合公式可以如下:
Figure BDA0003187468680000091
其中,aggsum可以是用于计算各个文本片段对最终价值标签的数值影响的聚合公式,σ可以是非线性函数,u可以表示文章所属领域的嵌入向量表示,v可以表示训练集文章嵌入向量表示,
Figure BDA0003187468680000092
可以表示为待训练文章邻域的嵌入式向量表示,S(v)可以是控制待训练文章相邻节点的个数,比如,可以将S(v)定义为一个超参数K,如,K=3,W可以为全连接层的权重,b可以为偏置。
进一步地,可以将最终计算文章领域的嵌入表示向量u与文章的嵌入向量表示v之间的内积得到一个概率f(u,v),该概率计算公式可以为:
yuv=f(u,v)
通过训练这个概率和价值标签的损失,可以使得概率f(u,v)达到最大值。其中,为了提高文本处理的准确率,本公开实施例中可以将KGCN模型中的损失函数改为方差。
本公开实施例中,该预设的归类算法也可以是传统机器学习中的随机森林模型。具体的,可以是择选取多个学术期刊中的文章,并针对每一文章构建对应的知识图谱,以及确定各个文章的价值标签,再根据文章的属性选取特征信息,该特征信息可以是文章被引数量、期刊的影响因子、文章关键词等任意一个或多个,将每个文章与对应的价值标签、特征信息输入到随机森林模型中,最终拟合得到的结果为该文章的价值排列顺序。
本公开实施例中,将处理结果满足预设要求的样本文本作为第一类型文本,可以是在对价值标签进行归类处理后,得到多个样本文本对应的价值排列顺序,按照排列顺序将价值最高的前十个样本文本作为第一乐行文本。
步骤1023、筛选属于所述目标领域的样本文本,作为第二类型文本。
本公开实施例中,可以是先确定各个样本文本所属的领域,再将所属领域为目标领域的样本文本,作为第二类型文本。其中,确定各个样本文本所属的领域,可以是提取样本文本中的关键词,根据关键词确定对应的领域,将该领域作为样本文本所属的领域。
步骤1024、将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。
本公开实施例中,可以是先确定第一类型文本,再从第一类型文本中确定第二类型文本,则可以得到同时属于第一类型文本与第二类型文本的样本文本,并将该样本文本作为参考文本,也可以是先确定第二类型文本,再从第二类型文本中确定第一类型文本,则可以得到同时属于第一类型文本与第二类型文本的样本文本,并将该样本文本作为参考文本,对此本公开不做限制。
本公开实施例中,可以通过先确定待处理文本所属的目标领域,以及确定各个样本文本的价值标签,再对价值标签进行归类处理,将处理结果满足预设要求的样本文本作为第一类型文本,并筛选属于目标领域的样本文本,作为第二类型文本,最后,将同时属于第一类型文本与第二类型文本的样本文本,作为参考文本,这样,可以筛选出与待处理文本属于同一领域、且文本价值较高的样本文本,以便之后作为训练样本可以提高模型训练的准确率。
可选的,本公开实施例中上述确定所述待处理文本所属的目标领域的操作,可以具体包括:
子步骤(1)、获取所述待处理文本中的关键词。
本公开实施例中,当待处理文本记载有该文本的关键词,可以直接将该关键词作为待处理文本中的关键词;当待处理文本未记载有关键词,则可以利用预设识别算法对待处理文本进行识别,将识别得到的关键词作为该待处理文本的关键词,其中,预设识别算法可以是命名实体识别技术(Named Entity Recognition,NER),通过信息提取、句法分析、机器翻译等基础工具,对待处理文本进行识别,并提取关键词。
子步骤(2)、将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。
本公开实施例中,可以预先对不同关键词匹配有不同的领域,根据待处理文本中的关键词,确定该关键词匹配的领域,并将该领域作为待处理文本的目标领域。需要说明的是,当待处理文本中获得关键词较多时,比如,关键词有11个,可以选取前三个关键词来确定匹配的领域。这是由于关键词的排序往往是跟该关键词在文本所占重要程度大小排序的,选取前三个关键词来确定匹配的领域,可以一定程度上提高确定待处理文本所属领域的准确性,并且,匹配的领域可以选择同时包含这三个关键词的领域。
可选的,在一种实现方式中,本公开实施例中还可以执行以下步骤:
子步骤S11、对所述样本文本拆分,得到不同内容属性对应的文本片段。
本公开实施例中,内容属性可以是该样本文本的作者、题目、摘要、关键词、领域、发表地点和发表期刊等相关信息。对样本文本拆分,得到不同内容属性对应的文本片段,可以是按照各个内容属性对样本文本进行分解,分别得到每一内容属性对应的文本片段。
子步骤S12、按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预设文本库中。
本公开实施例中,在对预设文本库中存储的多个样本文本进行分解后,根据各个内容属性进行归类,可以得到各个样本文本中属于同一内容属性的文本片段,并将该文本片段按照内容属性分别存储于预设文本库中。
可选的,本公开实施例中上述在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句的操作,可以具体包括:
步骤1031、确定所述待处理文本中的待修饰句。
本公开实施例中,待修饰句可以是需要对表述方式进行调整或表述内容进行替换的句子。确定待处理文本中的待修饰句,可以是从待处理文本按照句号任意截取的一个句子作为待修饰句,也可以是用户在待处理文本中指定句子作为待修饰句。
步骤1032、根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。
本公开实施例中,预设的文本筛选算法可以是自然语言处理(NLP)算法中文本筛选算法,比如,可以是TextRank算法,也可以是BERT算法,本公开对此不做限制。示例的,可以利用BERT算法,计算参考文本中的每一句与待修饰句的相似度,并将相似度最高的句子,作为与待修饰句相似的目标参考句。
可选的,本公开实施例中上述根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句的操作,可以具体包括:
子步骤(3)、利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句。
本公开实施例中,第一筛选算法可以是TextRank算法,通过对参考文本中的每一句进行筛选,选取与待修饰句相似的句子,并将该句子作为与待修饰句相似的第一参考句。例如,可以确定参考文本中的每一句与待修饰句的相似度,将相似度大于50%的句子作为第一参考句。
子步骤(4)、对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。
本公开实施例中,第二筛选算法可以是BERT算法,通过分别计算第一参考句与待修饰句的相似度,将相似度满足预设阈值的第一参考句,作为目标参考句,比如,可以是将相似度大于80%的第一参考句作为目标参考句。
本公开实施例中,通过确定待处理文本中的待修饰句,根据预设的文本筛选算法与待修饰句,对参考文本进行筛选,以确定与待修饰句相似的目标参考句,这样,利用文本筛选算法筛选相似语句,可以提高文本处理的准确率,并且可以缩短处理时间。
可选的,在一种实现方式中,本公开实施例中还可以执行以下步骤:
子步骤S21、获取多个样本语句。
本公开实施例中,样本语句可以是从预设样本库中提取得到的语句,也可以是从网上下载的语句,还可以是用户指定的语句,本公开对此不做限制。例如,可以从学术期刊中随机截取一句,作为样本语句。
子步骤S22、对所述样本语句按照预设翻译方法翻译,得到样本翻译语句。
本公开实施例中,预设翻译方法可以是对样本语句进行不同语种的正向翻译和反向翻译,比如,样本语句为法语,可以将样本语句进行法译英翻译,得到英语的样本语句,再对英语的样本语句进行英译法翻译,得到法语的样本语句,将法语的样本语句作为样本翻译语句。
示例的,图2是本公开实施例提供的一种文本处理示意图,如图2所示,句子1为样本语句,将英文的句子1进行英译中翻译,得到中文的句子2,再对中文的句子2进行中译英翻译,得到英文的句子3,则可以将句子3作为样本翻译语句。
子步骤S23、将所述样本语句与所述样本翻译语句作为一个训练样本对。
示例的,将样本语句与样本翻译语句作为一个训练样本对,可以是将日语的句子,与经过日译英和英译日翻译后得到日语句子,作为一个训练样本对,也可以是将德语的句子,与经过德译法和法译德翻译后得到的德语句子,作为一个训练样本对。
子步骤S24、利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。
本公开实施例中,初始语句转换模型可以是用于文本处理的Transformer模型,在一种具体实现方式中,Transformer模型的具体处理步骤可以如下:第一步:获取输入句子的每一个单词的表示向量X,X可以由单词的向量(Embedding)和单词位置的向量相加得到;第二步:可以将得到的单词表示向量矩阵传入编码器中,经过N个(如6个)编码块(Encoderblock)后可以得到句子所有单词的编码信息矩阵C,单词向量矩阵可以用X(n×d)表示,n可以是句子中单词个数,d可以是表示向量的维度,比如,可以是d=512,其中,每一个编码块输出的矩阵维度可以与输入完全一致;第三步:可以将编码器输出的编码信息矩阵C传递到解码器中,解码器可以依次根据当前翻译过的单词1~i来翻译下一个单词i+1,在使用的过程中,翻译到单词i+1的时候可以通过掩盖(mask)操作遮盖住i+1之后的单词,输出预测单词。
需要说明的是,由于Transformer模型可以包括编码器(Encoder)和解码器(Decoder)两个部分组成,其中,编码器和解码器可以都包含6个块(block),其中,编码块(Encoder block)可以包含一个多头注意力机制(Multi-Head Attention),而解码块(Decoder block)可以包含两个多头注意力机制(Multi-Head Attention),其中,一个多头注意力机制可以用到掩盖(Masked)操作。而在解码块的多头注意力机制之前还可以包括一个残差与归一(Add&Norm)层,Add可以表示残差连接(Residual Connection),用于防止网络退化,Norm可以表示层归一化(Layer Normalization),用于对每一层的激活值进行归一化。通过输入语料1为样本语句,语料2为样本翻译语句,可以对Transformer模型进行不断的迭代训练,学习语料1与语料2之间的转换方式,以便可以在表述内容不变的前提下,按照目标表述方式转换语句。
进一步地,一个多头注意力机制可以是由多个自注意力机制(Self-Attention)组成的,而解码器中与编码器不同的可以是,其自注意力层(self-attention layer)将只关注前文信息而将后文做掩盖(mask)操作,在解码器中后面的字词(token)推断可以是基于前面的字词(token),在t时刻解码器可以是不知道t+1时刻的字词(token),因此,为了保证训练时和推理时的一致性,训练时要同样防止字词(token)与它之后的字词(token)不一致,需要进行注意力分配(attention)。最后,解码器堆栈(Decoder stack)可以外接一个线性(Linear)层和归一化(Softmax)层,可以将向量对应为风格转换后的输出单词。其中,linear可以为全连接层,再外接Softmax层,即可以得到每一输入词(风格1)转换为另一种文字风格(风格2)中每一个词的概率。
需要说明的是,本公开实施例中的Transformer模型还可以包括多头注意力机制(Multihead attention),在第二个多头注意力机制中,前面的编码器可以提供键值(K)和值(V)矩阵,输出可以提供查询(Q)矩阵。而多头注意力机制模块与单头注意力机制相区别的可以是,多头注意机制可以生成多个Q、K、V矩阵,不同的Q、K、V扩展了模型的表征能力,其中,本公开实施例中的Transformer模型可以包含8个注意力机制。
本公开实施例中,在利用训练样本对对初始语句转换模型进行训练之后,可以得到目标语句转换模型,即,目标语句转换模型可以是预训练的语句转换模型。目标语句转换模型还可以是在预训练的语句转换模型的基础上,根据用户对模型的使用不断更新的语句转换模型,具体的,可以是在之后使用预训练的语句转换模型,对待修饰句按照目标参考句进行转换,得到待修饰句对应的目标推荐句的过程中,预训练的语句转换模型可以根据用户输入的语料进行训练学习,从而可以不断对语句转换模型进行更新。这样,通过学习实际使用中输入的语料,可以扩大模型的训练样本,使得模型输出的结果可以更符合用户的需求,从而可以降低输出结果的出错率。
可选的,在一种实现方式中,本公开实施例中还可以执行以下步骤:
子步骤S25、将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。
本公开实施例中,由于本公开是将待修饰句按照目标参考句进行转换,得到待修饰句对应的目标推荐句,再对待修饰句进行转换时,可能不光是对词语进行同义替换,还会对表述内容的语序进行调整,而在初始语句转换模型中的位置嵌入参数往往设置为固定值,不参与训练,因此,通过将位置嵌入参数设置为可训练值,可以在对待修饰句转换时,考虑到语序的调整,从而可以进一步使得令转换得到的目标推荐句与目标参考句在表述方式上更为相似,使得目标推荐句的用词更为准确、表述方式更符合审核人员习惯。
图3是本公开实施例提供的一种文本处理装置的框图,如图3所示,该装置30可以包括:
第一获取模块301,用于获取输入的待处理文本;
选取模块302,在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;
第一确定模块303,用于在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;
转换模块304,用于根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。
综上所述,本公开实施例提供的文本处理装置,可以获取输入的待处理文本,并在预设文本库中,选取与待处理文本相匹配且满足预设要求的参考文本,再在所参考文本中,确定与所待处理文本中待修饰句相似的目标参考句,最后,根据目标语句转换模型,对待修饰句按照目标参考句进行转换,得到待修饰句对应的目标推荐句。这样,通过语句转换模型,将待修饰句按照目标参考句进行转换,可以得到用词更为准确、表述方式更符合审核人员习惯的目标推荐句,从而可以实现对文本表述内容及表述方式的调整,无需用户手动修改文本即可得到高质量的撰写文本,提高了文本处理的效率。
可选的,所述预设文本库中存储有多个样本文本;
所述选取模块302,还用于:
确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签;
对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本;
筛选属于所述目标领域的样本文本,作为第二类型文本;
将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。
可选的,所述选取模块302,还用于:
获取所述待处理文本中的关键词;
将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。
可选的,所述装置30还包括:
拆分模块,用于对所述样本文本拆分,得到不同内容属性对应的文本片段;
存储模块,用于按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预设文本库中。
可选的,所述第一确定模块303,还用于:
确定所述待处理文本中的待修饰句;
根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。
可选的,所述第一确定模块303,还用于:
利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句;
对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。
可选的,所述装置30还包括:
第二获取模块,用于获取多个样本语句;
翻译模块,用于对所述样本语句按照预设翻译方法翻译,得到样本翻译语句;
第二确定模块,用于将所述样本语句与所述样本翻译语句作为一个训练样本对;
训练模块,用于利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。
可选的,所述装置30还包括:
设置模块,用于将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。
可选的,所述初始语句转换模型为Transformer模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本公开的一个实施例,提供了一种电子设备,包括:处理器、用于存储处理器可执行指令的存储器,其中,处理器被配置为执行时实现如上述任一个实施例中的文本处理方法中的步骤。
根据本公开的一个实施例,还提供了一种非临时性计算机可读存储介质,当存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行如上述任一个实施例中的文本处理方法中的步骤。
根据本公开的一个实施例,还提供了一种计算机程序产品,该计算机程序产品包括可读性程序代码,该可读性程序代码由移动终端的处理器执行时,使得移动终端能够执行如上述任一个实施例中的文本处理方法中的步骤。
图4是根据一示例性实施例示出的一种用于文本处理的装置的框图。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的文本处理方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理***,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述文本处理方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述文本处理方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是根据一示例性实施例示出的另一种用于文本处理的装置的框图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述文本处理方法。
装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (20)

1.一种文本处理方法,其特征在于,所述方法包括:
获取输入的待处理文本;
在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;
在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;
根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。
2.根据权利要求1所述的方法,其特征在于,所述预设文本库中存储有多个样本文本;
所述在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本,包括:
确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签;
对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本;
筛选属于所述目标领域的样本文本,作为第二类型文本;
将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。
3.根据权利要求2所述的方法,其特征在于,所述确定所述待处理文本所属的目标领域,包括:
获取所述待处理文本中的关键词;
将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述样本文本拆分,得到不同内容属性对应的文本片段;
按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预设文本库中。
5.根据权利要求1所述的方法,其特征在于,所述在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句,包括:
确定所述待处理文本中的待修饰句;
根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。
6.根据权利要求5所述的方法,其特征在于,所述根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句,包括:
利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句;
对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
获取多个样本语句;
对所述样本语句按照预设翻译方法翻译,得到样本翻译语句;
将所述样本语句与所述样本翻译语句作为一个训练样本对;
利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。
9.根据权利要求7所述的方法,其特征在于,所述初始语句转换模型为Transformer模型。
10.一种文本处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取输入的待处理文本;
选取模块,在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;
第一确定模块,用于在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;
转换模块,用于根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。
11.根据权利要求10所述的装置,其特征在于,所述预设文本库中存储有多个样本文本;
所述选取模块,还用于:
确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签;
对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本;
筛选属于所述目标领域的样本文本,作为第二类型文本;
将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。
12.根据权利要求11所述的装置,其特征在于,所述选取模块,还用于:
获取所述待处理文本中的关键词;
将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。
13.根据权利要求11所述的装置,其特征在于,所述装置还包括:
拆分模块,用于对所述样本文本拆分,得到不同内容属性对应的文本片段;
存储模块,用于按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预设文本库中。
14.根据权利要求10所述的装置,其特征在于,所述第一确定模块,还用于:
确定所述待处理文本中的待修饰句;
根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。
15.根据权利要求14所述的装置,其特征在于,所述第一确定模块,还用于:
利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句;
对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。
16.根据权利要求10至15中任一项所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取多个样本语句;
翻译模块,用于对所述样本语句按照预设翻译方法翻译,得到样本翻译语句;
第二确定模块,用于将所述样本语句与所述样本翻译语句作为一个训练样本对;
训练模块,用于利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括:
设置模块,用于将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。
18.根据权利要求16所述的装置,其特征在于,所述初始语句转换模型为Transformer模型。
19.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的文本处理方法。
20.一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行如权利要求1至9中任一项所述的文本处理方法。
CN202110865873.9A 2021-07-29 2021-07-29 文本处理方法、装置、电子设备及存储介质 Pending CN115688685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110865873.9A CN115688685A (zh) 2021-07-29 2021-07-29 文本处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865873.9A CN115688685A (zh) 2021-07-29 2021-07-29 文本处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115688685A true CN115688685A (zh) 2023-02-03

Family

ID=85058701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865873.9A Pending CN115688685A (zh) 2021-07-29 2021-07-29 文本处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115688685A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408651A (zh) * 2023-12-15 2024-01-16 辽宁省网联数字科技产业有限公司 基于人工智能的招标方案在线编制方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408651A (zh) * 2023-12-15 2024-01-16 辽宁省网联数字科技产业有限公司 基于人工智能的招标方案在线编制方法及***

Similar Documents

Publication Publication Date Title
CN111460150B (zh) 一种分类模型的训练方法、分类方法、装置及存储介质
CN111078838B (zh) 关键词提取方法、关键词提取装置及电子设备
CN109522424B (zh) 数据的处理方法、装置、电子设备及存储介质
CN107766426B (zh) 一种文本分类方法、装置及电子设备
CN111832316B (zh) 语义识别的方法、装置、电子设备和存储介质
CN111259148A (zh) 信息处理方法、装置及存储介质
CN113157910B (zh) 商品描述文本生成方法、装置及存储介质
CN114266840A (zh) 图像处理方法、装置、电子设备及存储介质
CN112328793B (zh) 评论文本数据的处理方法、装置及存储介质
CN114328838A (zh) 事件抽取方法、装置、电子设备及可读存储介质
CN111222316B (zh) 文本检测方法、装置及存储介质
CN112036195A (zh) 机器翻译方法、装置及存储介质
CN113673261A (zh) 数据生成方法、装置及可读存储介质
CN115688685A (zh) 文本处理方法、装置、电子设备及存储介质
CN111400443B (zh) 信息处理方法、装置及存储介质
CN112948565A (zh) 人机对话方法、装置、电子设备及存储介质
CN111274389A (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN110609996B (zh) 文本情绪识别方法、装置及电子设备
KR20210050484A (ko) 정보 처리 방법, 장치 및 저장 매체
CN113923517B (zh) 一种背景音乐生成方法、装置及电子设备
CN115017324A (zh) 实体关系抽取方法、装置、终端及存储介质
CN113971218A (zh) 位置编码方法、装置及存储介质
CN115146633A (zh) 一种关键词识别方法、装置、电子设备及存储介质
CN114036937A (zh) 场景布局预测网络的训练方法及场景布局的估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination