CN113326379A - 文本分类预测方法、装置、设备及存储介质 - Google Patents
文本分类预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113326379A CN113326379A CN202110734767.7A CN202110734767A CN113326379A CN 113326379 A CN113326379 A CN 113326379A CN 202110734767 A CN202110734767 A CN 202110734767A CN 113326379 A CN113326379 A CN 113326379A
- Authority
- CN
- China
- Prior art keywords
- model
- classification
- sentence
- text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000013145 classification model Methods 0.000 claims abstract description 85
- 230000004913 activation Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 29
- 238000005457 optimization Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 230000003042 antagnostic effect Effects 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008451 emotion Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,揭示了一种文本分类预测方法、装置、设备及存储介质,其中方法包括:获取目标文本数据;将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;获取所述目标文本分类模型输出的目标文本分类预测结果。从而确定具有优秀的泛化能力的目标文本分类模型,提高了目标文本分类模型对目标文本数据进行文本分类预测的成功率。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种文本分类预测方法、装置、设备及存储介质。
背景技术
过拟合是我们试图将机器学习技术应用于文本分类时遇到的主要问题之一,出现这个问题是因为使用标记好的文本来训练文本分类模型,比如,对机构G的新闻情感进行分类,我们需要该机构历史上的新闻数据并且进行新闻情感标记。发明人发现并非所有情感表达在已有的标记好的文本中都能有很好的体现。事实上,很多大量使用的新的情感表达通常都没有得到充分的体现,导致训练后的文本分类模型的泛化不好,当泛化不好的文本分类模型面对新的应用场景时,可能会出现分类预测失败。
发明内容
本申请的主要目的为提供一种文本分类预测方法、装置、设备及存储介质,旨在解决现有技术使用标记好的文本来训练文本分类模型时,因训练样本数量太少,导致很多大量使用的新的情感表达通常都没有得到充分的体现,导致训练后的文本分类模型的泛化不好的技术问题。
为了实现上述发明目的,本申请提出一种文本分类预测方法,所述方法包括:
获取目标文本数据;
将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;
获取所述目标文本分类模型输出的目标文本分类预测结果。
进一步的,所述将所述目标文本数据输入目标文本分类模型进行文本分类预测的步骤之前,还包括:
获取第一分类训练样本集合,所述第一分类训练样本集合中每个第一分类训练样本包括:第一句子样本文本和第一句子真实性标定数据;
采用迭代优化训练方法,根据所述第一分类训练样本集合,对所述生成子模型和所述判别子模型进行对抗训练,将对抗训练结束的所述生成子模型作为句子生成模型,其中,所述生成子模型是基于循环神经网络得到的模型,所述判别子模型是基于全连接网络或卷积神经网络得到的模型;
获取多个待预测的语言片段;
采用预测和拼接迭代的方法,分别将所述多个待预测的语言片段中的每个待预测的语言片段输入所述句子生成模型进行句子生成,得到多个生成句子文本;
获取所述多个生成句子文本中的各个生成句子文本各自对应的分类标定数据,根据所述多个生成句子文本和各个所述分类标定数据进行样本生成,得到多个生成句子样本;
获取多个待扩充的分类训练样本,将所述多个待扩充的分类训练样本和所述多个生成句子样本作为第二分类训练样本集合;
采用MLM训练方法,根据所述第二分类训练样本集合对文本分类初始模型进行训练,将训练结束的所述文本分类初始模型作为所述目标文本分类模型,其中,所述文本分类初始模型是基于所述Bert模型、所述全连接层和所述Softmax激活函数得到的模型。
进一步的,所述采用MLM训练方法,根据所述第二分类训练样本集合对文本分类初始模型进行训练,将训练结束的所述文本分类初始模型作为所述目标文本分类模型的步骤,包括:
从所述第二分类训练样本集合中提取一个第二分类训练样本作为目标分类训练样本;
将所述目标分类训练样本的待分类训练的样本文本输入所述文本分类初始模型的嵌入层进行标记解析及采用固定字符长度进行字符调整,得到调整后的样本文本;
采用所述MLM训练方法,根据所述调整后的样本文本和所述目标分类训练样本的所述分类标定数据对所述文本分类初始模型进行训练;
重复执行所述从所述第二分类训练样本集合中提取一个第二分类训练样本作为目标分类训练样本的步骤,直至满足分类训练收敛条件;
将满足所述分类训练收敛条件的所述文本分类初始模型作为所述目标文本分类模型。
进一步的,所述采用迭代优化训练方法,根据所述第一分类训练样本集合,对所述生成子模型和所述判别子模型进行对抗训练,将对抗训练结束的所述生成子模型作为句子生成模型的步骤,包括:
从所述第一分类训练样本集合中获取一个第一分类训练样本作为待对抗训练的分类训练样本;
采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述生成子模型和所述待对抗训练的分类训练样本的所述第一句子样本文本进行句子生成,得到待处理的生成句子;
获取生成句子标定符号,根据所述生成句子标定符号和所述待处理的生成句子进行样本生成,得到判别分类训练样本;
将所述待对抗训练的分类训练样本的第一句子样本文本和所述判别分类训练样本的第二子样本文本分别输入所述判别子模型进行真实性概率的预测,得到所述待对抗训练的分类训练样本对应的第一真实性概率预测值和所述判别分类训练样本对应的第二真实性概率预测值;
采用迭代优化训练方法,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据和所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据对所述生成子模型和所述判别子模型进行对抗训练;
重复执行所述从所述第一分类训练样本集合中获取一个第一分类训练样本作为待对抗训练的分类训练样本的步骤,直至满足对抗训练收敛条件,将满足所述对抗训练收敛条件的所述生成子模型作为所述句子生成模型。
进一步的,所述采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述生成子模型和所述待对抗训练的分类训练样本的所述第一句子样本文本进行句子生成,得到待处理的生成句子的步骤,包括:
采用预设的语言片段提取规则和从开头提取的方式,从所述待对抗训练的分类训练样本的所述第一句子样本文本中提取语言片段,作为待预测拼接的语言片段;
通过所述生成子模型,采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述待预测拼接的语言片段进行句子生成,得到所述待处理的生成句子。
进一步的,所述通过所述生成子模型,采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述待预测拼接的语言片段进行句子生成,得到所述待处理的生成句子的步骤,包括:
将所述待预测拼接的语言片段作为待预测的文本;
将所述待预测的文本输入所述生成子模型进行下一个字符的预测,得到待拼接的字符预测值;
将所述待预测的文本和所述待拼接的字符预测值进行依次拼接,得到拼接后的文本;
将所述拼接后的文本作为所述待预测的文本;
重复执行所述将所述待预测的文本输入所述生成子模型进行下一个字符的预测,得到待拼接的字符预测值的步骤,直至所述待预测的文本的字符的数量达到字符预测收敛条件;
将所述待预测的文本作为所述待处理的生成句子。
进一步的,所述采用迭代优化训练方法,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据和所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据对所述生成子模型和所述判别子模型进行对抗训练的步骤,包括:
获取待优化的模型标识,当所述待优化的模型标识为空时,将所述生成子模型的标识作为所述待优化的模型标识;
当所述待优化的模型标识为所述生成子模型的标识时,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据进行损失值计算,得到所述生成子模型的第一损失值,根据所述生成子模型的第一损失值更新所述生成子模型的参数,根据所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据进行损失值计算,得到所述生成子模型的第二损失值,根据所述生成子模型的第二损失值更新所述生成子模型的参数,判断所述第一损失值和所述第二损失值是否均达到第一收敛条件,或者所述生成子模型的迭代次数是否达到第二收敛条件,当所述第一损失值和所述第二损失值均达到所述第一收敛条件,或者所述生成子模型的迭代次数达到所述第二收敛条件时,将所述判别子模型的标识作为所述待优化的模型标识;
当所述待优化的模型标识为所述判别子模型的标识时,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据进行损失值计算,得到所述判别子模型的第三损失值,根据所述判别子模型的第三损失值更新所述判别子模型的参数,根据所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据进行损失值计算,得到所述判别子模型的第四损失值,根据所述判别子模型的第四损失值更新所述判别子模型的参数,判断所述第三损失值和所述第四损失值是否均达到第三收敛条件,或者所述判别子模型的迭代次数是否达到第四收敛条件,当所述第三损失值和所述第四损失值均达到所述第三收敛条件,或者所述判别子模型的迭代次数达到所述第四收敛条件时,将所述生成子模型的标识作为所述待优化的模型标识。
本申请还提出了一种文本分类预测装置,所述装置包括:
数据获取模块,用于获取目标文本数据;
文本分类预测模块,用于将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;
目标文本分类预测结果确定模块,用于获取所述目标文本分类模型输出的目标文本分类预测结果。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的文本分类预测方法、装置、设备及存储介质,通过获取目标文本数据;将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;获取所述目标文本分类模型输出的目标文本分类预测结果,通过生成子模型和判别子模型快速扩充各种情感的训练样本,将扩充的训练样本和根据真实数据确定的标记好的文本进行Bert模型、全连接层、Softmax激活函数的训练,得到具有优秀的泛化能力的目标文本分类模型,提高了目标文本分类模型对目标文本数据进行文本分类预测的成功率。
附图说明
图1为本申请一实施例的文本分类预测方法的流程示意图;
图2为本申请一实施例的文本分类预测装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种文本分类预测方法,所述方法包括:
S1:获取目标文本数据;
S2:将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;
S3:获取所述目标文本分类模型输出的目标文本分类预测结果。
本实施例通过获取目标文本数据;将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;获取所述目标文本分类模型输出的目标文本分类预测结果,通过生成子模型和判别子模型快速扩充各种情感的训练样本,将扩充的训练样本和根据真实数据确定的标记好的文本得到的样本进行Bert模型、全连接层、Softmax激活函数的训练,得到具有优秀的泛化能力的目标文本分类模型,提高了目标文本分类模型对目标文本数据进行文本分类预测的成功率。
对于S1,可以获取用户输入的目标文本数据,也可以从数据库中获取目标文本数据,还可以从第三方应用***中获取目标文本数据。
目标文本数据,是需要进行文本分类预测的文本数据。目标文本数据,可以是一句话。
对于S2,将所述目标文本数据输入目标文本分类模型进行文本分类预测,目标文本分类模型将输出文本分类预测结果。
其中,采用生成子模型、判别子模型进行对抗训练,将对抗训练后的生成子模型作为句子生成模型,以使句子生成模型能够生成与根据真实数据确定的标记好的文本具有相同真实性的句子;采用预测和拼接迭代的方法和句子生成模型,根据语言片段生成句子,根据生成的句子确定生成句子样本,采用生成句子样本和根据真实数据确定的标记好的文本得到的样本合并成第二分类训练样本集合,采用第二分类训练样本集合进行Bert模型、全连接层、Softmax激活函数的训练,得到具有优秀的泛化能力的目标文本分类模型,提高了目标文本分类模型对目标文本数据进行文本分类预测的成功率。
Bert模型,是预训练的语言表征模型。
全连接层,每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,以实现分类器的作用。
Softmax激活函数,是多分类时的归一化函数。
对于S3,将目标文本分类模型输出的文本分类预测结果作为所述目标文本数据对应的目标文本分类预测结果。也就是说,目标文本分类预测结果是一个概率向量,目标文本分类预测结果中的每个概率对应一个分类标签。
可选的,所述获取所述目标文本分类模型输出的目标文本分类预测结果的步骤之后,还包括:从所述目标文本分类预测结果中找出最大值,得到目标概率;将所述目标概率对应的分类标签作为所述目标文本数据的目标分类标签。
在一个实施例中,上述将所述目标文本数据输入目标文本分类模型进行文本分类预测的步骤之前,还包括:
S21:获取第一分类训练样本集合,所述第一分类训练样本集合中每个第一分类训练样本包括:第一句子样本文本和第一句子真实性标定数据;
S22:采用迭代优化训练方法,根据所述第一分类训练样本集合,对所述生成子模型和所述判别子模型进行对抗训练,将对抗训练结束的所述生成子模型作为句子生成模型,其中,所述生成子模型是基于循环神经网络得到的模型,所述判别子模型是基于全连接网络或卷积神经网络得到的模型;
S23:获取多个待预测的语言片段;
S24:采用预测和拼接迭代的方法,分别将所述多个待预测的语言片段中的每个待预测的语言片段输入所述句子生成模型进行句子生成,得到多个生成句子文本;
S25:获取所述多个生成句子文本中的各个生成句子文本各自对应的分类标定数据,根据所述多个生成句子文本和各个所述分类标定数据进行样本生成,得到多个生成句子样本;
S26:获取多个待扩充的分类训练样本,将所述多个待扩充的分类训练样本和所述多个生成句子样本作为第二分类训练样本集合;
S27:采用MLM训练方法,根据所述第二分类训练样本集合对文本分类初始模型进行训练,将训练结束的所述文本分类初始模型作为所述目标文本分类模型,其中,所述文本分类初始模型是基于所述Bert模型、所述全连接层和所述Softmax激活函数得到的模型。
本实施例采用生成子模型、判别子模型进行对抗训练,将对抗训练后的生成子模型作为句子生成模型,以使句子生成模型能够生成与根据真实数据确定的标记好的文本具有相同真实性的句子;采用预测和拼接迭代的方法和句子生成模型,根据语言片段生成句子,根据生成的句子确定生成句子样本,采用生成句子样本和根据真实数据确定的标记好的文本得到的样本合并成第二分类训练样本集合,采用第二分类训练样本集合进行Bert模型、全连接层、Softmax激活函数的训练,从而实现将扩充的训练样本和根据真实数据确定的标记好的文本得到的样本进行Bert模型、全连接层、Softmax激活函数的训练,得到具有优秀的泛化能力的目标文本分类模型,提高了目标文本分类模型对目标文本数据进行文本分类预测的成功率。
对于S21,可以获取用户输入的第一分类训练样本集合,也可以从数据库中获取第一分类训练样本集合,还可以从第三方应用***中获取第一分类训练样本集合。
所述第一分类训练样本集合中包括多个第一分类训练样本。所述第一句子真实性标定数据设置为真实句子标定符号,也就是说,所有所述第一分类训练样本的第一句子真实性标定数据的均被设置为真实句子标定符号。比如,真实句子标定符号为1,则所有所述第一分类训练样本的第一句子真实性标定数据均为1,在此举例不做具体限定。
第一句子样本文本,是一句话。
对于S22,分别将所述第一分类训练样本集合中每个第一分类训练样本的第一句子样本文本的开头n个字符输入所述生成子模型进行第n+1个字符预测,将第n+1个字符拼接在n个字符后面得到n+1个字符,然后再将n+1个字符所述生成子模型进行第n+2个字符预测,将第n+2个字符拼接在n+1个字符的后面得到n+2个字符,循环进行预测和拼接直至达到结束条件,得到多个待处理的生成句子;根据所述生成句子标定符号和每个所述待处理的生成句子进行样本生成,得到一个判别训练样本;采用迭代优化训练方法,根据所述第一分类训练样本集合和各个所述判别训练样本对所述生成子模型和所述判别子模型进行对抗训练,将对抗训练结束的所述生成子模型作为句子生成模型。
采用迭代优化方法,就是在根据所述第一分类训练样本集合和各个所述判别训练样本对所述生成子模型和所述判别子模型进行对抗训练时,先保持所述判别子模型的参数不变更和更新所述生成子模型的参数,然后保持所述生成子模型的参数不变更和更新所述判别子模型的参数,重复“先保持所述判别子模型的参数不变更和更新所述生成子模型的参数,然后保持所述生成子模型的参数不变更和更新所述判别子模型的参数”直至达到对抗训练收敛条件。
对于S23,可以获取用户输入的多个待预测的语言片段,也可以从数据库中获取多个待预测的语言片段,还可以从第三方应用***中获取多个待预测的语言片段。
多个待预测的语言片段中的每个待预测的语言片段包括一个或多个词。可以理解的是,所述待预测的语言片段中的词可以是一句话中连续的词,也可以是一句话中不连续的词,在此不做具体限定。
对于S24,获取预设句子长度;将目标待预测的语言片段作为待处理的语言片段,其中,所述目标待预测的语言片段是所述多个待预测的语言片段中的任一所述待预测的语言片段;将待处理的语言片段输入所述句子生成模型进行下一个字符预测,得到待处理的字符;将待处理的字符拼接在所述待处理的语言片段的后面,得到拼接后的语言片段;将拼接后的语言片段作为待处理的语言片段;重复执行所述将待处理的语言片段输入所述句子生成模型进行下一个字符预测,得到待处理的字符的步骤,直至所述待处理的语言片段的字符的数量等于所述预设句子长度;将所述待处理的语言片段作为所述目标待预测的语言片段对应的待处理的生成句子。
对于S25,可以从数据库中获取所述多个生成句子文本中的各个生成句子文本各自对应的分类标定数据,也可以从第三方应用***中获取所述多个生成句子文本中的各个生成句子文本各自对应的分类标定数据,还可以获取用户输入的所述多个生成句子文本中的各个生成句子文本各自对应的分类标定数据。
将目标生成句子文本作为所述目标生成句子文本对应的生成句子样本的待分类训练的样本文本,将所述目标生成句子文本对应的所述分类标定数据作为所述目标生成句子文本对应的生成句子样本的分类标定数据,其中,目标生成句子文本是所述多个生成句子文本中的任一个所述生成句子文本。
对于S26,可以获取用户输入的多个待扩充的分类训练样本,也可以从数据库中获取多个待扩充的分类训练样本,还可以从第三方应用***中获取多个待扩充的分类训练样本。
其中,将所述多个待扩充的分类训练样本和所述多个生成句子样本作为一个集合,将该集合作为所述第二分类训练样本集合。
所述多个待扩充的分类训练样本中的每个待扩充的分类训练样本包括:待分类训练的样本文本、分类标定数据,其中,待分类训练的样本文本和分类标定数据一一对应设置。
对于S27,采用MLM训练方法,也就是随机选择句子中15%的字符进行Mask(掩码),在选择为Mask的字符中,有80%真的使用[Mask]进行替换,10%不进行替换,剩下10%使用一个随机字符替换。
采用MLM训练方法,根据所述第二分类训练样本集合对文本分类初始模型进行训练的具体步骤在此不做赘述。
在一个实施例中,上述采用MLM训练方法,根据所述第二分类训练样本集合对文本分类初始模型进行训练,将训练结束的所述文本分类初始模型作为所述目标文本分类模型的步骤,包括:
S271:从所述第二分类训练样本集合中提取一个第二分类训练样本作为目标分类训练样本;
S272:将所述目标分类训练样本的待分类训练的样本文本输入所述文本分类初始模型的嵌入层进行标记解析及采用固定字符长度进行字符调整,得到调整后的样本文本;
S273:采用所述MLM训练方法,根据所述调整后的样本文本和所述目标分类训练样本的所述分类标定数据对所述文本分类初始模型进行训练;
S274:重复执行所述从所述第二分类训练样本集合中提取一个第二分类训练样本作为目标分类训练样本的步骤,直至满足分类训练收敛条件;
S275,将满足所述分类训练收敛条件的所述文本分类初始模型作为所述目标文本分类模型。
本实施例先对待分类训练的样本文本进行标记解析及采用固定字符长度进行字符调整,采用调整后的样本文本对文本分类初始模型进行训练,从而有利于进行模型的并行训练,提高了模型的训练效率。
对于S271,依次从所述第二分类训练样本集合中提取一个第二分类训练样本,将提取的第二分类训练样本作为目标分类训练样本。
对于S272,将所述目标分类训练样本的待分类训练的样本文本输入所述文本分类初始模型的嵌入层进行标记解析,然后根据标记解析的结果进行采用固定字符长度进行字符调整,从而得到调整后的样本文本。也就是说,调整后的样本文本的字符的数量和固定字符长度相同。
标记解析,也就是在所述目标分类训练样本的所述待分类训练的样本文本中加入起始字符和终止字符。比如,所述目标分类训练样本的所述待分类训练的样本文本“我很喜欢北京的景色”进行标记解析后得到“<CLS>我很喜欢北京的景色<SEP>”,“<CLS>”是起始字符,“<SEP>”是终止字符,在此举例不做具体限定。
可选的,固定字符长度设置为128,在此举例不做具体限定。
对于S273,采用所述MLM训练方法,根据所述调整后的样本文本和所述目标分类训练样本的所述分类标定数据对所述文本分类初始模型进行训练时,采用随机梯度下降算法对所述文本分类初始模型进行参数优化。
对于S274,重复执行S271至S274,直至满足分类训练收敛条件,从而得到具有优秀的泛化能力的文本分类初始模型。
分类训练收敛条件:所述文本分类初始模型的损失值达到损失值收敛条件,或者,所述文本分类初始模型的训练次数达到分类训练收敛条件。
损失值收敛条件,是指相邻两次计算述文本分类初始模型的损失值的大小满足lipschitz条件。
分类训练收敛条件,是具体数值。
对于S275,满足所述分类训练收敛条件的所述文本分类初始模型已符合预期训练目标,因此可以将满足所述分类训练收敛条件的所述文本分类初始模型作为所述目标文本分类模型。
在一个实施例中,上述采用迭代优化训练方法,根据所述第一分类训练样本集合,对所述生成子模型和所述判别子模型进行对抗训练,将对抗训练结束的所述生成子模型作为句子生成模型的步骤,包括:
S221:从所述第一分类训练样本集合中获取一个第一分类训练样本作为待对抗训练的分类训练样本;
S222:采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述生成子模型和所述待对抗训练的分类训练样本的所述第一句子样本文本进行句子生成,得到待处理的生成句子;
S223:获取生成句子标定符号,根据所述生成句子标定符号和所述待处理的生成句子进行样本生成,得到判别分类训练样本;
S224:将所述待对抗训练的分类训练样本的第一句子样本文本和所述判别分类训练样本的第二子样本文本分别输入所述判别子模型进行真实性概率的预测,得到所述待对抗训练的分类训练样本对应的第一真实性概率预测值和所述判别分类训练样本对应的第二真实性概率预测值;
S225:采用迭代优化训练方法,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据和所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据对所述生成子模型和所述判别子模型进行对抗训练;
S226:重复执行所述从所述第一分类训练样本集合中获取一个第一分类训练样本作为待对抗训练的分类训练样本的步骤,直至满足对抗训练收敛条件,将满足所述对抗训练收敛条件的所述生成子模型作为所述句子生成模型。
本实施例采用迭代优化训练方法,根据所述第一分类训练样本集合,对所述生成子模型和所述判别子模型进行对抗训练,从而使得到的句子生成模型能够生成与根据真实数据确定的标记好的文本具有相同真实性的句子。
对于S221,依次从所述第一分类训练样本集合中获取一个第一分类训练样本,将获取的第一分类训练样本作为待对抗训练的分类训练样本。
对于S222,将所述待对抗训练的分类训练样本的所述第一句子样本文本的开头n个字符输入所述生成子模型进行第n+1个字符预测,将第n+1个字符拼接在n个字符后面得到n+1个字符,然后再将n+1个字符所述生成子模型进行第n+2个字符预测,将第n+2个字符拼接在n+1个字符的后面得到n+2个字符,循环进行预测和拼接直至达到结束条件,得到所述待对抗训练的分类训练样本的所述第一句子样本文本对应的待处理的生成句子。
对于S223,可以获取用户输入的生成句子标定符号,也可以从数据库中获取生成句子标定符号,还可以从第三方应用***中获取生成句子标定符号,还可以将生成句子标定符号写入实现本申请的程序中。
其中,将待处理的生成句子作为判别分类训练样本的第二子样本文本,将生成句子标定符号作为判别分类训练样本的第二句子真实性标定数据。也就是说,每个待处理的生成句子对应一个所述判别分类训练样本。
比如,生成句子标定符号为0,则判别分类训练样本的第二句子真实性标定数据为0,在此举例不做具体限定。
对于S224,将所述待对抗训练的分类训练样本的第一句子样本文本输入所述判别子模型进行真实性概率的预测,得到所述待对抗训练的分类训练样本对应的第一真实性概率预测值;将所述判别分类训练样本的第二子样本文本输入所述判别子模型进行真实性概率的预测,得到所述判别分类训练样本对应的第二真实性概率预测值。
对于S225,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据和所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据对所述生成子模型和所述判别子模型进行重复“先保持所述判别子模型的参数不变更和更新所述生成子模型的参数,然后保持所述生成子模型的参数不变更和更新所述判别子模型的参数”的对抗训练。
对于S226,重复执行S221至S226,直至满足对抗训练收敛条件,将满足所述对抗训练收敛条件的所述生成子模型作为所述句子生成模型。
对抗训练收敛条件包括:所述生成子模型的第一损失值及第二损失值达到第一收敛条件和所述判别子模型的第三损失值及第四损失值达到第三收敛条件,或者,对抗训练次数达到第五收敛条件。
其中,当需要更新生成子模型的参数时,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据进行损失值计算,得到所述生成子模型的第一损失值,根据所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据进行损失值计算,得到所述生成子模型的第二损失值。当需要更新判别子模型的参数时,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据进行损失值计算,得到所述判别子模型的第三损失值,根据所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据进行损失值计算,得到所述判别子模型的第四损失值。
也就是说,当所述生成子模型的第一损失值及第二损失值同时达到第一收敛条件和所述判别子模型的第三损失值及第四损失值同时达到第三收敛条件,或者,所述对抗训练次数达到第五收敛条件时,确定所述生成子模型为所述时间序列生成模型。
所述第一收敛条件是指相邻两次计算所述生成子模型的第一损失值的大小满足lipschitz条件(利普希茨连续条件),并且,相邻两次计算所述生成子模型的第二损失值的大小满足lipschitz条件。
所述第三收敛条件是指相邻两次计算所述判别子模型的第三损失值的大小满足lipschitz条件,并且,相邻两次计算所述判别子模型的第四损失值的大小满足lipschitz条件。
所述对抗训练次数是指所述生成子模型的损失值及所述判别子模型的损失值被用于计算的次数,也就是说,计算一次所述生成子模型的损失值(包括第一损失值和第二损失值)或计算一次所述判别子模型的损失值(包括第三损失值和第四损失值),迭代次数增加1。
所述第五收敛条件是具体数值。
在一个实施例中,上述采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述生成子模型和所述待对抗训练的分类训练样本的所述第一句子样本文本进行句子生成,得到待处理的生成句子的步骤,包括:
S2221:采用预设的语言片段提取规则和从开头提取的方式,从所述待对抗训练的分类训练样本的所述第一句子样本文本中提取语言片段,作为待预测拼接的语言片段;
S2222:通过所述生成子模型,采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述待预测拼接的语言片段进行句子生成,得到所述待处理的生成句子。
本实施例采用预设的语言片段提取规则和从开头提取的方式先从所述待对抗训练的分类训练样本的所述第一句子样本文本中提取语言片段,然后采用提取的语言片段生成待处理的生成句子,从而为快速的生成判别分类训练样本提供了基础。
对于S2221,从所述待对抗训练的分类训练样本的所述第一句子样本文本的开头提取语言片段,将提取的语言片段作为待预测拼接的语言片段,其中,待预测拼接的语言片段中的字符的数量与预设的语言片段提取规则的字符数量相同。
比如,所述待对抗训练的分类训练样本的所述第一句子样本文本是“我很喜欢北京的景色”,采用预设的语言片段提取规则和从开头提取的方式从“我很喜欢北京的景色”中提取语言片段“我很喜欢”,将提取的语言片段“我很喜欢”作为待预测拼接的语言片段,在此举例不做具体限定。
对于S2222,通过所述生成子模型,采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述待预测拼接的语言片段进行句子生成,从而将所述待预测拼接的语言片段补充成完整的句子。
在一个实施例中,上述通过所述生成子模型,采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述待预测拼接的语言片段进行句子生成,得到所述待处理的生成句子的步骤,包括:
S22221:将所述待预测拼接的语言片段作为待预测的文本;
S22222:将所述待预测的文本输入所述生成子模型进行下一个字符的预测,得到待拼接的字符预测值;
S22223:将所述待预测的文本和所述待拼接的字符预测值进行依次拼接,得到拼接后的文本;
S22224:将所述拼接后的文本作为所述待预测的文本;
S22225:重复执行所述将所述待预测的文本输入所述生成子模型进行下一个字符的预测,得到待拼接的字符预测值的步骤,直至所述待预测的文本的字符的数量达到字符预测收敛条件;
S22226:将所述待预测的文本作为所述待处理的生成句子。
本实施例实现了通过所述生成子模型,采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述待预测拼接的语言片段进行句子生成,从而实现了自动化进行句子生成。
对于S22222,将所述待预测的文本输入所述生成子模型进行下一个字符的预测,将预测得到的字符作为待拼接的字符预测值。
对于S22223,将所述待拼接的字符预测值拼接在所述待预测的文本的后面,将拼接得到的数据作为拼接后的文本。
对于S22224,将所述拼接后的文本作为所述待预测的文本,以作为下一次预测的基础。
对于S22225,重复执行S22222至S2225,直至所述待预测的文本的字符的数量达到字符预测收敛条件。
可选的,所述字符预测收敛条件:将所述待预测的文本的字符的数量减去所述待对抗训练的分类训练样本的所述第一句子样本文本的字符的数量,得到待分析的字符数量差值,当所述待分析的字符数量差值等于字符数量差值阈值时结束迭代,其中,字符数量差值阈值可以等于0,也可以大于0。
对于S22226,将达到字符预测收敛条件的所述待预测的文本作为所述待处理的生成句子。
在一个实施例中,上述采用迭代优化训练方法,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据和所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据对所述生成子模型和所述判别子模型进行对抗训练的步骤,包括:
S2241:获取待优化的模型标识,当所述待优化的模型标识为空时,将所述生成子模型的标识作为所述待优化的模型标识;
S2242:当所述待优化的模型标识为所述生成子模型的标识时,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据进行损失值计算,得到所述生成子模型的第一损失值,根据所述生成子模型的第一损失值更新所述生成子模型的参数,根据所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据进行损失值计算,得到所述生成子模型的第二损失值,根据所述生成子模型的第二损失值更新所述生成子模型的参数,判断所述第一损失值和所述第二损失值是否均达到第一收敛条件,或者所述生成子模型的迭代次数是否达到第二收敛条件,当所述第一损失值和所述第二损失值均达到所述第一收敛条件,或者所述生成子模型的迭代次数达到所述第二收敛条件时,将所述判别子模型的标识作为所述待优化的模型标识;
S2243:当所述待优化的模型标识为所述判别子模型的标识时,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据进行损失值计算,得到所述判别子模型的第三损失值,根据所述判别子模型的第三损失值更新所述判别子模型的参数,根据所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据进行损失值计算,得到所述判别子模型的第四损失值,根据所述判别子模型的第四损失值更新所述判别子模型的参数,判断所述第三损失值和所述第四损失值是否均达到第三收敛条件,或者所述判别子模型的迭代次数是否达到第四收敛条件,当所述第三损失值和所述第四损失值均达到所述第三收敛条件,或者所述判别子模型的迭代次数达到所述第四收敛条件时,将所述生成子模型的标识作为所述待优化的模型标识。
本实施例根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据和所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据对所述生成子模型和所述判别子模型进行重复“先保持所述判别子模型的参数不变更和更新所述生成子模型的参数,然后保持所述生成子模型的参数不变更和更新所述判别子模型的参数”的对抗训练,从而提高了生成子模型的泛化能力。
对于S2241,可以从数据库中获取待优化的模型标识。
当所述待优化的模型标识为空时,意味着还没进行对抗训练,因此将所述生成子模型的标识作为所述待优化的模型标识,以实现首先进行“保持所述判别子模型的参数不变更和更新所述生成子模型的参数”的参数更新方式。
对于S2242,当所述待优化的模型标识为所述生成子模型的标识时,意味着此时需要进行“保持所述判别子模型的参数不变更和更新所述生成子模型的参数”的参数更新方式。
当所述第一损失值和所述第二损失值均达到所述第一收敛条件,或者所述生成子模型的迭代次数达到所述第二收敛条件时,意味着当前继续更新所述生成子模型的参数无法提升所述生成子模型的效果,因此将所述判别子模型的标识作为所述待优化的模型标识,以使对抗训练的参数更新方式进入“保持所述生成子模型的参数不变更和更新所述判别子模型的参数”,从而实现了迭代优化。
其中,采用交叉熵损失函数计算所述生成子模型的损失值。
所述第二收敛条件,是具体数值。
对于S2243,当所述待优化的模型标识为所述判别子模型的标识时,意味着此时进行“保持所述生成子模型的参数不变更和更新所述判别子模型的参数”的参数更新方式。
当所述第三损失值和所述第四损失值均达到所述第三收敛条件,或者所述判别子模型的迭代次数达到所述第四收敛条件时,意味着当前继续更新所述判别子模型的参数无法提升所述判别子模型的效果,因此将所述生成子模型的标识作为所述待优化的模型标识,以使对抗训练的参数更新方式进入“保持所述判别子模型的参数不变更和更新所述生成子模型的参数”,从而实现了迭代优化。
其中,采用交叉熵损失函数计算所述判别子模型的损失值。
所述第四收敛条件,是具体数值。
参照图2,本申请还提出了一种文本分类预测装置,所述装置包括:
数据获取模块100,用于获取目标文本数据;
文本分类预测模块200,用于将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;
目标文本分类预测结果确定模块300,用于获取所述目标文本分类模型输出的目标文本分类预测结果。
本实施例通过获取目标文本数据;将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;获取所述目标文本分类模型输出的目标文本分类预测结果,通过生成子模型和判别子模型快速扩充各种情感的训练样本,将扩充的训练样本和根据真实数据确定的标记好的文本进行Bert模型、全连接层、Softmax激活函数的训练,得到具有优秀的泛化能力的目标文本分类模型,提高了目标文本分类模型对目标文本数据进行文本分类预测的成功率。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于储存文本分类预测方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类预测方法。所述文本分类预测方法,包括:获取目标文本数据;将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;获取所述目标文本分类模型输出的目标文本分类预测结果。
本实施例通过获取目标文本数据;将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;获取所述目标文本分类模型输出的目标文本分类预测结果,通过生成子模型和判别子模型快速扩充各种情感的训练样本,将扩充的训练样本和根据真实数据确定的标记好的文本进行Bert模型、全连接层、Softmax激活函数的训练,得到具有优秀的泛化能力的目标文本分类模型,提高了目标文本分类模型对目标文本数据进行文本分类预测的成功率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种文本分类预测方法,包括步骤:获取目标文本数据;将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;获取所述目标文本分类模型输出的目标文本分类预测结果。
上述执行的文本分类预测方法,通过获取目标文本数据;将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;获取所述目标文本分类模型输出的目标文本分类预测结果,通过生成子模型和判别子模型快速扩充各种情感的训练样本,将扩充的训练样本和根据真实数据确定的标记好的文本进行Bert模型、全连接层、Softmax激活函数的训练,得到具有优秀的泛化能力的目标文本分类模型,提高了目标文本分类模型对目标文本数据进行文本分类预测的成功率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种文本分类预测方法,其特征在于,所述方法包括:
获取目标文本数据;
将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;
获取所述目标文本分类模型输出的目标文本分类预测结果。
2.根据权利要求1所述的文本分类预测方法,其特征在于,所述将所述目标文本数据输入目标文本分类模型进行文本分类预测的步骤之前,还包括:
获取第一分类训练样本集合,所述第一分类训练样本集合中每个第一分类训练样本包括:第一句子样本文本和第一句子真实性标定数据;
采用迭代优化训练方法,根据所述第一分类训练样本集合,对所述生成子模型和所述判别子模型进行对抗训练,将对抗训练结束的所述生成子模型作为句子生成模型,其中,所述生成子模型是基于循环神经网络得到的模型,所述判别子模型是基于全连接网络或卷积神经网络得到的模型;
获取多个待预测的语言片段;
采用预测和拼接迭代的方法,分别将所述多个待预测的语言片段中的每个待预测的语言片段输入所述句子生成模型进行句子生成,得到多个生成句子文本;
获取所述多个生成句子文本中的各个生成句子文本各自对应的分类标定数据,根据所述多个生成句子文本和各个所述分类标定数据进行样本生成,得到多个生成句子样本;
获取多个待扩充的分类训练样本,将所述多个待扩充的分类训练样本和所述多个生成句子样本作为第二分类训练样本集合;
采用MLM训练方法,根据所述第二分类训练样本集合对文本分类初始模型进行训练,将训练结束的所述文本分类初始模型作为所述目标文本分类模型,其中,所述文本分类初始模型是基于所述Bert模型、所述全连接层和所述Softmax激活函数得到的模型。
3.根据权利要求2所述的文本分类预测方法,其特征在于,所述采用MLM训练方法,根据所述第二分类训练样本集合对文本分类初始模型进行训练,将训练结束的所述文本分类初始模型作为所述目标文本分类模型的步骤,包括:
从所述第二分类训练样本集合中提取一个第二分类训练样本作为目标分类训练样本;
将所述目标分类训练样本的待分类训练的样本文本输入所述文本分类初始模型的嵌入层进行标记解析及采用固定字符长度进行字符调整,得到调整后的样本文本;
采用所述MLM训练方法,根据所述调整后的样本文本和所述目标分类训练样本的所述分类标定数据对所述文本分类初始模型进行训练;
重复执行所述从所述第二分类训练样本集合中提取一个第二分类训练样本作为目标分类训练样本的步骤,直至满足分类训练收敛条件;
将满足所述分类训练收敛条件的所述文本分类初始模型作为所述目标文本分类模型。
4.根据权利要求2所述的文本分类预测方法,其特征在于,所述采用迭代优化训练方法,根据所述第一分类训练样本集合,对所述生成子模型和所述判别子模型进行对抗训练,将对抗训练结束的所述生成子模型作为句子生成模型的步骤,包括:
从所述第一分类训练样本集合中获取一个第一分类训练样本作为待对抗训练的分类训练样本;
采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述生成子模型和所述待对抗训练的分类训练样本的所述第一句子样本文本进行句子生成,得到待处理的生成句子;
获取生成句子标定符号,根据所述生成句子标定符号和所述待处理的生成句子进行样本生成,得到判别分类训练样本;
将所述待对抗训练的分类训练样本的第一句子样本文本和所述判别分类训练样本的第二子样本文本分别输入所述判别子模型进行真实性概率的预测,得到所述待对抗训练的分类训练样本对应的第一真实性概率预测值和所述判别分类训练样本对应的第二真实性概率预测值;
采用迭代优化训练方法,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据和所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据对所述生成子模型和所述判别子模型进行对抗训练;
重复执行所述从所述第一分类训练样本集合中获取一个第一分类训练样本作为待对抗训练的分类训练样本的步骤,直至满足对抗训练收敛条件,将满足所述对抗训练收敛条件的所述生成子模型作为所述句子生成模型。
5.根据权利要求4所述的文本分类预测方法,其特征在于,所述采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述生成子模型和所述待对抗训练的分类训练样本的所述第一句子样本文本进行句子生成,得到待处理的生成句子的步骤,包括:
采用预设的语言片段提取规则和从开头提取的方式,从所述待对抗训练的分类训练样本的所述第一句子样本文本中提取语言片段,作为待预测拼接的语言片段;
通过所述生成子模型,采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述待预测拼接的语言片段进行句子生成,得到所述待处理的生成句子。
6.根据权利要求5所述的文本分类预测方法,其特征在于,所述通过所述生成子模型,采用将预测的字符迭代加入进行下一个字符预测的句子迭代生成方法,根据所述待预测拼接的语言片段进行句子生成,得到所述待处理的生成句子的步骤,包括:
将所述待预测拼接的语言片段作为待预测的文本;
将所述待预测的文本输入所述生成子模型进行下一个字符的预测,得到待拼接的字符预测值;
将所述待预测的文本和所述待拼接的字符预测值进行依次拼接,得到拼接后的文本;
将所述拼接后的文本作为所述待预测的文本;
重复执行所述将所述待预测的文本输入所述生成子模型进行下一个字符的预测,得到待拼接的字符预测值的步骤,直至所述待预测的文本的字符的数量达到字符预测收敛条件;
将所述待预测的文本作为所述待处理的生成句子。
7.根据权利要求4所述的文本分类预测方法,其特征在于,所述采用迭代优化训练方法,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据和所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据对所述生成子模型和所述判别子模型进行对抗训练的步骤,包括:
获取待优化的模型标识,当所述待优化的模型标识为空时,将所述生成子模型的标识作为所述待优化的模型标识;
当所述待优化的模型标识为所述生成子模型的标识时,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据进行损失值计算,得到所述生成子模型的第一损失值,根据所述生成子模型的第一损失值更新所述生成子模型的参数,根据所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据进行损失值计算,得到所述生成子模型的第二损失值,根据所述生成子模型的第二损失值更新所述生成子模型的参数,判断所述第一损失值和所述第二损失值是否均达到第一收敛条件,或者所述生成子模型的迭代次数是否达到第二收敛条件,当所述第一损失值和所述第二损失值均达到所述第一收敛条件,或者所述生成子模型的迭代次数达到所述第二收敛条件时,将所述判别子模型的标识作为所述待优化的模型标识;
当所述待优化的模型标识为所述判别子模型的标识时,根据所述待对抗训练的分类训练样本对应的所述第一真实性概率预测值及所述第一句子真实性标定数据进行损失值计算,得到所述判别子模型的第三损失值,根据所述判别子模型的第三损失值更新所述判别子模型的参数,根据所述判别分类训练样本对应的所述第二真实性概率预测值及所述第二句子真实性标定数据进行损失值计算,得到所述判别子模型的第四损失值,根据所述判别子模型的第四损失值更新所述判别子模型的参数,判断所述第三损失值和所述第四损失值是否均达到第三收敛条件,或者所述判别子模型的迭代次数是否达到第四收敛条件,当所述第三损失值和所述第四损失值均达到所述第三收敛条件,或者所述判别子模型的迭代次数达到所述第四收敛条件时,将所述生成子模型的标识作为所述待优化的模型标识。
8.一种文本分类预测装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标文本数据;
文本分类预测模块,用于将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;
目标文本分类预测结果确定模块,用于获取所述目标文本分类模型输出的目标文本分类预测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110734767.7A CN113326379B (zh) | 2021-06-30 | 文本分类预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110734767.7A CN113326379B (zh) | 2021-06-30 | 文本分类预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326379A true CN113326379A (zh) | 2021-08-31 |
CN113326379B CN113326379B (zh) | 2024-07-19 |
Family
ID=
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628043A (zh) * | 2021-09-17 | 2021-11-09 | 平安银行股份有限公司 | 基于数据分类的投诉有效性判断方法、装置、设备及介质 |
CN113836303A (zh) * | 2021-09-26 | 2021-12-24 | 平安科技(深圳)有限公司 | 一种文本类别识别方法、装置、计算机设备及介质 |
CN114386391A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
CN114416984A (zh) * | 2022-01-12 | 2022-04-29 | 平安科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备及存储介质 |
CN116127067A (zh) * | 2022-12-28 | 2023-05-16 | 北京明朝万达科技股份有限公司 | 文本分类方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100378A (zh) * | 2020-09-15 | 2020-12-18 | 中国平安人寿保险股份有限公司 | 文本分类模型训练方法、装置、计算机设备及存储介质 |
CN112131366A (zh) * | 2020-09-23 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 训练文本分类模型及文本分类的方法、装置及存储介质 |
WO2021047286A1 (zh) * | 2019-09-12 | 2021-03-18 | 华为技术有限公司 | 文本处理模型的训练方法、文本处理方法及装置 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021047286A1 (zh) * | 2019-09-12 | 2021-03-18 | 华为技术有限公司 | 文本处理模型的训练方法、文本处理方法及装置 |
CN112100378A (zh) * | 2020-09-15 | 2020-12-18 | 中国平安人寿保险股份有限公司 | 文本分类模型训练方法、装置、计算机设备及存储介质 |
CN112131366A (zh) * | 2020-09-23 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 训练文本分类模型及文本分类的方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
ACHEAMPONG, FRANCISCA ADOMA ET AL.: "Transformer models for text-based emotion detection: a review of BERT-based approaches", ARTIFICIAL INTELLIGENCE REVIEW, vol. 54, no. 08, 8 February 2021 (2021-02-08), pages 5789, XP037603894, DOI: 10.1007/s10462-021-09958-2 * |
小萝卜鸭: "BERT 预训练模型及文本分类", pages 1 - 21, Retrieved from the Internet <URL:https://www.cnblogs.com/wwj99/p/12283799.html> * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628043A (zh) * | 2021-09-17 | 2021-11-09 | 平安银行股份有限公司 | 基于数据分类的投诉有效性判断方法、装置、设备及介质 |
CN113628043B (zh) * | 2021-09-17 | 2024-06-07 | 平安银行股份有限公司 | 基于数据分类的投诉有效性判断方法、装置、设备及介质 |
CN113836303A (zh) * | 2021-09-26 | 2021-12-24 | 平安科技(深圳)有限公司 | 一种文本类别识别方法、装置、计算机设备及介质 |
CN114386391A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
CN114386391B (zh) * | 2022-01-11 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
CN114416984A (zh) * | 2022-01-12 | 2022-04-29 | 平安科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备及存储介质 |
CN116127067A (zh) * | 2022-12-28 | 2023-05-16 | 北京明朝万达科技股份有限公司 | 文本分类方法、装置、电子设备和存储介质 |
CN116127067B (zh) * | 2022-12-28 | 2023-10-20 | 北京明朝万达科技股份有限公司 | 文本分类方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543032B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108830277B (zh) | 语义分割模型的训练方法、装置、计算机设备和存储介质 | |
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN110909803B (zh) | 图像识别模型训练方法、装置和计算机可读存储介质 | |
CN110717514A (zh) | 会话意图识别方法、装置、计算机设备和存储介质 | |
CN111553164A (zh) | 命名实体识别模型的训练方法、装置、计算机设备 | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN108038544B (zh) | 基于大数据和深度学习的神经网络深度学习方法和*** | |
CN112256961A (zh) | 用户画像生成方法、装置、设备及介质 | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN111291264A (zh) | 基于机器学习的访问对象预测方法、装置和计算机设备 | |
CN112613555A (zh) | 基于元学习的目标分类方法、装置、设备和存储介质 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及*** | |
CN114416984A (zh) | 基于人工智能的文本分类方法、装置、设备及存储介质 | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN113849648A (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN112580329B (zh) | 文本噪声数据识别方法、装置、计算机设备和存储介质 | |
CN113268564B (zh) | 相似问题的生成方法、装置、设备及存储介质 | |
CN111079175B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN110929517B (zh) | 地理位置定位方法、***、计算机设备和存储介质 | |
CN113326379B (zh) | 文本分类预测方法、装置、设备及存储介质 | |
CN113326379A (zh) | 文本分类预测方法、装置、设备及存储介质 | |
CN113239272B (zh) | 一种网络管控***的意图预测方法和意图预测装置 | |
CN115374278A (zh) | 文本处理模型蒸馏方法、装置、计算机设备及介质 | |
CN116431758A (zh) | 文本分类方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |