CN113590764A - 训练样本构建方法、装置、电子设备和存储介质 - Google Patents
训练样本构建方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113590764A CN113590764A CN202111132630.0A CN202111132630A CN113590764A CN 113590764 A CN113590764 A CN 113590764A CN 202111132630 A CN202111132630 A CN 202111132630A CN 113590764 A CN113590764 A CN 113590764A
- Authority
- CN
- China
- Prior art keywords
- unlabeled
- sample
- text
- samples
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 130
- 238000010276 construction Methods 0.000 title claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 57
- 238000012216 screening Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000002372 labelling Methods 0.000 claims abstract description 28
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000523 sample Substances 0.000 description 148
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种训练样本构建方法、装置、电子设备和存储介质,其中方法包括:基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。本发明提供的训练样本构建方法、装置、电子设备和存储介质,通过利用已训练过的初始分类模型对未标注文本进行分类,从而根据各未标注文本的分类结果对其进行筛选,得到困难样本和第一候选稀疏样本,并在此筛选结果的基础上进行标注,得到训练样本,能够大幅度提升训练样本的构建效率,同时有效提升获取的稀疏样本数量。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种训练样本构建方法、装置、电子设备和存储介质。
背景技术
深度学习项目中,训练集的质量往往直接影响模型的训练效果,因此构建一个好的训练集对于优化模型效果有着重要作用。
然而,在实际应用场景中,构建有效的训练集需要在具体任务中慢慢累积,耗时较长且需要人工对每一个样本进行一一标注,人力成本较高。尤其是当某些类别的训练样本在整个数据集中分布较稀疏时,获取这类稀疏样本的人力成本和时间成本将会非常高昂,且收集的稀疏样本数量也十分有限。其中,稀疏样本为所属类型对应的样本数占样本总数比例较少的样本。例如,某种违反平台规定的数据在整个数据集中的比例低于0.1%,因此违规数据即为稀疏样本,为了收集到足够的此类稀疏样本作为训练集,需要标注人员长时间积累数据,费时费力,成本较高。
发明内容
本发明提供一种训练样本构建方法、装置、电子设备和存储介质,用以解决现有技术中稀疏样本构建难度大、效率低且人力成本高的缺陷。
本发明提供一种训练样本构建方法,包括:
基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;
基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;
对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
根据本发明提供的一种训练样本构建方法,所述基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本,具体包括:
基于所述未标注文本的分类结果中的概率分布,计算所述未标注文本的困惑度;其中,所述未标注文本的概率分布中对应各类型的概率越相近,所述未标注文本的困惑度越高;
基于所述未标注文本的困惑度,从所述未标注文本中筛选所述困难样本。
根据本发明提供的一种训练样本构建方法,所述基于所述未标注文本的分类结果中的概率分布,计算所述未标注文本的困惑度,具体包括:
计算所述未标注文本的概率分布的熵,作为所述未标注文本的困惑度。
根据本发明提供的一种训练样本构建方法,基于所述未标注文本的分类结果,从所述未标注文本中筛选第一候选稀疏样本,具体包括:
基于所述未标注文本的分类结果中稀疏类型对应的概率,将所述未标注文本划分到多个概率段中;
从每一高于预设阈值的所述概率段中,选取一个或多个未标注文本,作为所述第一候选稀疏样本。
根据本发明提供的一种训练样本构建方法,所述初始分类模型是对已标注文本进行对抗训练得到的。
根据本发明提供的一种训练样本构建方法,所述对已标注文本进行对抗训练,具体包括:
基于上一时刻的输入样本以及所述上一时刻的梯度生成扰动,得到当前时刻的输入样本;
基于所述当前时刻的输入样本,确定所述当前时刻的梯度;
基于所述当前时刻的梯度,更新所述初始分类模型;
其中,初始时刻的输入样本为所述已标注文本。
根据本发明提供的一种训练样本构建方法,还包括:
基于所述未标注文本的分类结果,从所述未标注文本中筛选第二候选稀疏样本;
对所述第二候选稀疏样本和预设关键词进行关键词匹配,将匹配成功的所述第二候选稀疏样本作为训练样本。
本发明还提供一种训练样本构建装置,包括:
分类单元,用于基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;
样本筛选单元,用于基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;
标注单元,用于对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述训练样本构建方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述训练样本构建方法的步骤。
本发明提供的训练样本构建方法、装置、电子设备和存储介质,通过利用已训练过的初始分类模型对未标注文本进行分类,从而根据各未标注文本的分类结果对其进行筛选,得到困难样本和第一候选稀疏样本,并在此筛选结果的基础上进行标注,得到训练样本,能够大幅度提升训练样本的构建效率,同时有效提升获取的稀疏样本数量。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的训练样本构建方法的流程示意图;
图2是本发明实施例提供的初始分类模型的结构示意图;
图3是本发明实施例提供的对抗训练方法的示意图;
图4是本发明实施例提供的训练样本构建方法的详细流程示意图;
图5是本发明实施例提供的数据筛选方法的示意图;
图6是本发明实施例提供的训练样本构建装置的结构示意图;
图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种训练样本构建方法、装置、电子设备和存储介质,用以解决现有技术中在数据稀疏情形下,构建样本集时需要人工对每一个样本进行一一标注,效率较低且样本获取数量较少的缺陷,能够大幅度提升训练样本的构建效率,同时有效提升获取的稀疏样本数量。
其中,方法和装置是基于同一申请构思的,由于方法和装置解决问题的原理相似,因此装置和方法的实施可以相互参见,重复之处不再赘述。
图1为本发明实施例提供的训练样本构建方法的流程示意图,如图1所示,该方法包括:
步骤110,基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;
步骤120,基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;
步骤130,对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
具体地,利用已训练好的初始分类模型,对未进行人工标注、暂不知晓其类型的文本进行分类,得到各个未标注文本的分类结果。其中,初始分类模型可以是任意类型的文本分类模型,例如文本语义提取网络(例如Roberta或BERT等)和分类网络的结合(如图2所示)。任一未标注文本的分类结果中可以包括该未标注文本对应各个文本类型的可能性,例如在违规文本分类场景下,任一未标注文本的分类结果可以包含该未标注文本为违规文本的可能性以及该未标注文本为非违规文本的可能性。
根据各个未标注文本的分类结果,可以从上述未标注文本中筛选出困难样本。其中,困难样本是指对目前的初始分类模型而言较难学习、初始分类模型将其分类到正确类型的可能性相对较低的样本。而困难样本的出现,也一定程度上反映了样本不均衡的问题,即稀疏样本数量较少,初始分类模型对其学习不充分,导致对稀疏样本的分类效果不佳,因此困难样本中可能包含稀疏样本。因此,可以将困难样本筛选出来用于构建训练样本,扩大训练样本中稀疏样本的数量,从而提高后续模型的训练效果,使其对稀疏样本的分类准确性有所提升。即使困难样本本身不是稀疏样本,由于其学习难度高,将其纳入训练集进行训练,也同样有助于提升后续模型的训练效果,使其对于类似样本的分类准确性提高。
除此之外,还可以根据初始分类模型对未标注文本进行分类的分类结果,直接筛选出初始分类模型认为是稀疏样本的未标注文本作为第一候选稀疏样本。例如,可以根据任一未标注文本对应稀疏类型的可能性,将对应稀疏类型的可能性较高的未标注文本作为第一候选稀疏样本筛选出来。其中,稀疏类型为稀疏样本对应的类型,即对应样本数占样本总数的比例少于预设阈值的类型。例如,在违规文本分类场景下,违规文本所占比例较小,因此违规文本这一类型即为稀疏类型。此外,即使第一候选稀疏样本不是稀疏样本,表明初始分类模型对其分类错误,将其纳入训练集进行学习,也同样有助于提升后续模型的训练效果,提升其分类准确性。
此处,由于初始分类模型的训练程度不够完善,其分类准确性不高,各个未标注文本的分类结果可能不准确,因此针对筛选出的困难样本和第一候选稀疏样本的真实类型可以进行进一步的标注,从而获得训练样本,以供初始分类模型或其他文本分类模型训练学习。
通过利用已训练过的初始分类模型对未标注文本进行分类,从而根据各未标注文本的分类结果对其进行筛选,从而筛选出更有可能为稀疏样本的困难样本和第一候选稀疏样本,并在此筛选结果的基础上进行标注,大大缩小了人工标注的范围,减轻了人工标注的工作量,提高了训练样本的构建效率,并且可以快速获取稀疏样本,扩充训练集中稀疏样本的数量,有助于提高文本分类模型的训练效果和文本分类准确性。
本发明实施例提供的方法,通过利用已训练过的初始分类模型对未标注文本进行分类,从而根据各未标注文本的分类结果对其进行筛选,得到困难样本和第一候选稀疏样本,并在此筛选结果的基础上进行标注,得到训练样本,能够大幅度提升训练样本的构建效率,同时有效提升获取的稀疏样本数量。
基于上述实施例,步骤120中,基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本,具体包括:
基于所述未标注文本的分类结果中的概率分布,计算所述未标注文本的困惑度;其中,所述未标注文本的概率分布中对应各类型的概率越相近,所述未标注文本的困惑度越高;
基于所述未标注文本的困惑度,从所述未标注文本中筛选所述困难样本。
具体地,根据各个未标注文本的分类结果中的概率分布,计算各个未标注文本的困惑度。其中,任一未标注文本的概率分布中对应各类型的概率越相近,该未标注文本的困惑度越高。此处,任一未标注文本的概率分布中对应各类型的概率越相近,表明初始分类模型对该未标注文本的语义特征的学习越不充分,从而使得初始分类模型无法很明确很肯定地指示出该未标注文本的类型,故该未标注文本对于初始分类模型的困惑度越高。
由于未标注文本的困惑度越高,其对于初始分类模型的学习难度越大,因此可以筛选出困惑度较高的未标注文本作为困难样本,以构建训练样本,从而提升后续模型的学习效果,提高模型的召回率(Recall)和准确率(Precision)。
本发明实施例提供的方法,根据未标注文本的分类结果中的概率分布,计算未标注文本的困惑度,并基于未标注文本的困惑度筛选困难样本,可以有效获取学习难度大的困难样本,优化了训练样本的质量,有助于提升后续模型的学习效果,以及模型的召回率和准确率。
基于上述任一实施例,基于所述未标注文本的分类结果中的概率分布,计算所述未标注文本的困惑度,具体包括:
计算所述未标注文本的概率分布的熵,作为所述未标注文本的困惑度。
具体地,可以通过计算各个未标注文本的概率分布的熵,将各个未标注文本的熵作为其对应的困惑度。例如,在二分类场景下,任一未标注文本的概率分布中包含对应类型1的概率p1和对应类型2的概率p2,那么可以通过如下方式计算该未标注文本的熵(即困惑度):
-p0*log(p0)-p1*log(p1)
基于上述任一实施例,步骤120中,基于所述未标注文本的分类结果,从所述未标注文本中筛选第一候选稀疏样本,具体包括:
基于所述未标注文本的分类结果中稀疏类型对应的概率,将所述未标注文本划分到多个概率段中;
从每一高于预设阈值的所述概率段中,选取一个或多个未标注文本,作为所述第一候选稀疏样本。
具体地,可以根据各个未标注文本的分类结果中稀疏类型对应的概率,将各各未标注文本划分到多个概率段中。此处,考虑到稀疏类型对应的概率较高的未标注文本才有可能为稀疏样本,因此,可以选取稀疏类型对应的概率较高的未标注文本,并将其划分到对应概率段中。例如,可以根据各个未标注文本的分类结果中稀疏类型对应的概率,将未标注文本划分到0.5-0.6、0.6-0.7、0.7-0.8、0.8-0.9和0.9-1等五个概率段中。
随后,从每一高于预设阈值的概率段中,选取一个或多个未标注文本,作为第一候选稀疏样本。此处,从满足条件的各个概率段中分别抽取若干个未标注文本,避免集中在同一概率段内采样数据,可以保证后续构建的训练样本的多样性。
本发明实施例提供的方法,通过将未标注文本划分到多个概率段中,并从每一高于预设阈值的概率段中,分别选取一个或多个未标注文本,作为第一候选稀疏样本,保证了后续构建的训练样本的多样性。
基于上述任一实施例,初始分类模型是对已标注文本进行对抗训练得到的。
具体地,可以由标注人员对部分未标注文本的类型进行人工标注,得到已标注文本,利用上述已标注文本对初始分类模型进行训练。其中,由于数据标注成本较高,搜集数据困难,因此此处可以仅标注少量文本以训练初始分类模型,从而节省人力成本并提高效率。
由于初始分类模型在此训练阶段的训练数据较少,初始分类模型容易过拟合,因此可以在该模型的训练过程中引入对抗训练模式,以缓解过拟合风险。其中,对初始分类模型进行对抗训练,即是在模型训练的过程中加入扰动样本,将扰动样本合并到原始的训练数据中构成新的训练数据,实现数据增强,从而避免模型过拟合的问题。
本发明实施例提供的方法,通过对已标注文本进行对抗训练得到初始分类模型,可以避免模型过拟合的问题,提升初始分类模型的文本分类能力。
基于上述任一实施例,对已标注文本进行对抗训练,具体包括:
基于上一时刻的输入样本以及所述上一时刻的梯度生成扰动,得到当前时刻的输入样本;
基于所述当前时刻的输入样本,确定所述当前时刻的梯度;
基于所述当前时刻的梯度,更新所述初始分类模型;
其中,初始时刻的输入样本为所述已标注文本。
具体地,如图3所示,在初始时刻,将已标注文本输入至初始分类模型中,可以获得初始时刻已标注文本对应的梯度,从而根据该梯度更新初始分类模型的模型参数。随后,根据上一时刻的输入样本(即已标注文本x)以及上一时刻的梯度生成扰动,形成当前时刻的输入样本(即扰动数据x1)。将当前时刻的输入样本输入至初始分类模型中,可以获得当前时刻的梯度,从而根据该梯度进一步更新初始分类模型的模型参数。重复以上操作,待生成预设数量个扰动数据后,可以将下一个已标注文本输入至初始分类模型中,并再次重复上述操作,直至训练完成。针对每一个已标注文本,在模型训练过程中均会生成多个扰动数据以进一步更新模型参数,有效缓解了训练数据少带来的模型过拟合的问题。
此处,可以采用诸如FGSM(Fast Gradient Sign Method)、FGM(Fast GradientMethod)和PGD(Project Gradient Descent)等方式生成扰动。例如,可以采用如下方式生成扰动:
其中,xt是指第t次扰动得到的样本,xt+1是对xt经过扰动后得到的样本,g(xt)为当前时刻的梯度,Project()为扰动约束,即扰动函数,α是指扰动系数,是个常数,如果扰动过大,超出了Project()的约束空间,就映射回约束空间的边界上,以保证扰动不要过大。d是微分,xt-1是上一次扰动产生的样本或初始时刻的已标注样本,L是损失函数,是初始分类模型的系数,y是样本标签lable。
基于上述任一实施例,该方法还包括:
基于所述未标注文本的分类结果,从所述未标注文本中筛选第二候选稀疏样本;
对所述第二候选稀疏样本和预设关键词进行关键词匹配,将匹配成功的所述第二候选稀疏样本作为训练样本。
具体地,通过上述方式获取的稀疏样本数量可能依然有限,因此,为了进一步扩充稀疏样本的数量以提升文本分类模型对稀疏样本的识别准确率,可以利用关键词匹配方式从未标注文本中获取更多的稀疏样本。具体而言,可以根据各个未标注文本的分类结果,从未标注文本中筛选出可能为稀疏样本的第二候选稀疏样本。此处,可以根据各个未标注文本的分类结果中对应稀疏类型的概率,选择概率最高的若干个未标注样本作为第二候选稀疏样本。例如,按照稀疏类型对应的概率由大到小的方式将未标注文本进行排序后,选取靠前的部分未标注文本作为第二候选稀疏样本。
随后,将各个第二候选稀疏样本和预设关键词进行关键词匹配(例如正则匹配)。其中,预设关键词可以是对人工标注的已有稀疏样本中的字、词或短语进行常用语分析后得到的,且可以根据具体业务场景进行相应调整。例如,在违规文本分类场景下,通过分析已有的稀疏样本,确定“vpn”是个违规的高频词,则可以将“vpn”作为预设关键词进行存储。若任一第二候选稀疏样本与任一预设关键词匹配成功,即该第二候选稀疏样本中出现了该预设关键词,则表明该第二候选稀疏样本很有可能为稀疏样本,因此可以将其作为训练样本扩充到训练集中。另外,若多个第二候选稀疏样本均与同一预设关键词匹配成功,还可以根据实际应用场景,从上述多个第二候选稀疏样本中选取合适数量的第二候选稀疏样本作为训练样本,以避免同一预设关键词匹配的训练样本过多造成的模型过拟合的风险,以及同一预设关键词匹配的训练样本过少造成的模型训练不充分的风险。
本发明实施例提供的方法,通过将从未标注文本中初筛出的第二候选稀疏样本与预设关键词进行匹配,并将匹配成功的第二候选稀疏样本作为训练样本扩充到训练集中,实现了稀疏样本数量的扩充,有助于提升模型对稀疏样本的分类准确性。
基于上述任一实施例,图4为本发明实施例提供的训练样本构建方法的详细流程示意图,如图4所示,该方法包括:
步骤410,在初始阶段,由人工标记少量已标注文本。
步骤420,将步骤410中的已标注文本作为训练集,微调预训练模型Roberta +分类网络构成的初始分类模型。由于此阶段训练数据较少,模型容易过拟合,所以在训练过程中引入对抗训练PGD方法,缓解过拟合风险。
步骤430,利用步骤420所得到的初始分类模型,对未标记文本(即测试集)进行预测,得到未标注文本的分类结果,即未标记文本对应各类型的概率分布。
步骤440,利用主动学习策略对未标记文本进行数据筛选,通过此步骤对此前的样本不足问题进行弥补,同时对未标记的稀疏数据进行过滤,使得数据的标出率得到提高。如图5所示,此步骤中的筛选策略包含两种:
1)对未标注文本的概率分布计算熵,作为未标注文本的困惑度。对未标注文本的困惑度进行排序,筛选困惑度大的未标注文本(例如,基于熵值进行排序,取前30%数据)作为困难样本置于候选标注集中,用于后续标注。
2)对于稀疏类型,按照模型输出的未标注文本对应系数类型的概率将其划分到多个概率段中,例如划分到0.5-0.6,0.6-0.7,...,0.9-1等概率段中。随后,从每个概率段中随机抽取若干条未标注文本,作为第一候选稀疏样本置于候选标注集中,用于后续标注,以避免集中在同一概率段内采样数据,从而保证数据的多样性。
其中,1)和2)的筛选方法可同时进行,并将筛选后得到的数据进行去重操作。
步骤450,对步骤440筛选出的困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
循环步骤420-450,直到累计足够的训练样本。通过此步骤构建训练数据集,效率较高,同时数据质量以及多样性能够得到保证。
步骤420-450加快了训练样本获取的效率,但是依然可能有面临样本不足的问题。因此,可以利用以下步骤进行样本扩充:
步骤460,根据各未标注文本的概率分布,从中筛选出可能为稀疏样本(例如对应稀疏类型的概率较高的未标注文本)的第二候选稀疏样本。对第二候选稀疏样本和预设关键词进行关键词匹配,将匹配成功的第二候选稀疏样本进行标注后作为训练样本。
此外,由于该部分扩充的样本准确性可能不高,在训练过程中可以适当的降低此部分样本对应的损失权重,而权重大小可以由扩展样本的准确性来定。
通过上述方式,可以快速的累积训练样本,减少人工标注压力与成本,且样本的多样性和数量都能得到保证。
基于上述任一实施例,图6为本发明实施例提供的训练样本构建装置的结构示意图,如图6所示,该装置包括:分类单元610、样本筛选单元620和标注单元630。
其中,分类单元610用于基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;
样本筛选单元620用于基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;
标注单元630用于对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
本发明实施例提供的装置,通过利用已训练过的初始分类模型对未标注文本进行分类,从而根据各未标注文本的分类结果对其进行筛选,得到困难样本和第一候选稀疏样本,并在此筛选结果的基础上进行标注,得到训练样本,能够大幅度提升训练样本的构建效率,同时有效提升获取的稀疏样本数量。
基于上述任一实施例,样本筛选单元620具体用于:
基于所述未标注文本的分类结果中的概率分布,计算所述未标注文本的困惑度;其中,所述未标注文本的概率分布中对应各类型的概率越相近,所述未标注文本的困惑度越高;
基于所述未标注文本的困惑度,从所述未标注文本中筛选所述困难样本。
本发明实施例提供的装置,根据未标注文本的分类结果中的概率分布,计算未标注文本的困惑度,并基于未标注文本的困惑度筛选困难样本,可以有效获取学习难度大的困难样本,优化了训练样本的质量,有助于提升后续模型的学习效果,以及模型的召回率和准确率。
基于上述任一实施例,基于所述未标注文本的分类结果中的概率分布,计算所述未标注文本的困惑度,具体包括:
计算所述未标注文本的概率分布的熵,作为所述未标注文本的困惑度。
基于上述任一实施例,样本筛选单元620具体用于:
基于所述未标注文本的分类结果中稀疏类型对应的概率,将所述未标注文本划分到多个概率段中;
从每一高于预设阈值的所述概率段中,选取一个或多个未标注文本,作为所述第一候选稀疏样本。
本发明实施例提供的装置,通过将未标注文本划分到多个概率段中,并从每一高于预设阈值的概率段中,分别选取一个或多个未标注文本,作为第一候选稀疏样本,保证了后续构建的训练样本的多样性。
基于上述任一实施例,初始分类模型是对已标注文本进行对抗训练得到的。
本发明实施例提供的装置,通过对已标注文本进行对抗训练得到初始分类模型,可以避免模型过拟合的问题,提升初始分类模型的文本分类能力。
基于上述任一实施例,对已标注文本进行对抗训练,具体包括:
基于上一时刻的输入样本以及所述上一时刻的梯度生成扰动,得到当前时刻的输入样本;
基于所述当前时刻的输入样本,确定所述当前时刻的梯度;
基于所述当前时刻的梯度,更新所述初始分类模型;
其中,初始时刻的输入样本为所述已标注文本。
基于上述任一实施例,该装置还包括样本扩展单元,其中样本扩展单元用于:
基于所述未标注文本的分类结果,从所述未标注文本中筛选第二候选稀疏样本;
对所述第二候选稀疏样本和预设关键词进行关键词匹配,将匹配成功的所述第二候选稀疏样本作为训练样本。
本发明实施例提供的装置,通过将从未标注文本中初筛出的第二候选稀疏样本与预设关键词进行匹配,并将匹配成功的第二候选稀疏样本作为训练样本扩充到训练集中,实现了稀疏样本数量的扩充,有助于提升模型对稀疏样本的分类准确性。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行训练样本构建方法,该方法包括:基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的训练样本构建方法,该方法包括:基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的训练样本构建方法,该方法包括:基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种训练样本构建方法,其特征在于,包括:
基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;
基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;
对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
2.根据权利要求1所述的训练样本构建方法,其特征在于,所述基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本,具体包括:
基于所述未标注文本的分类结果中的概率分布,计算所述未标注文本的困惑度;其中,所述未标注文本的概率分布中对应各类型的概率越相近,所述未标注文本的困惑度越高;
基于所述未标注文本的困惑度,从所述未标注文本中筛选所述困难样本。
3.根据权利要求2所述的训练样本构建方法,其特征在于,所述基于所述未标注文本的分类结果中的概率分布,计算所述未标注文本的困惑度,具体包括:
计算所述未标注文本的概率分布的熵,作为所述未标注文本的困惑度。
4.根据权利要求1所述的训练样本构建方法,其特征在于,基于所述未标注文本的分类结果,从所述未标注文本中筛选第一候选稀疏样本,具体包括:
基于所述未标注文本的分类结果中稀疏类型对应的概率,将所述未标注文本划分到多个概率段中;
从每一高于预设阈值的所述概率段中,选取一个或多个未标注文本,作为所述第一候选稀疏样本。
5.根据权利要求1所述的训练样本构建方法,其特征在于,所述初始分类模型是对已标注文本进行对抗训练得到的。
6.根据权利要求5所述的训练样本构建方法,其特征在于,所述对已标注文本进行对抗训练,具体包括:
基于上一时刻的输入样本以及所述上一时刻的梯度生成扰动,得到当前时刻的输入样本;
基于所述当前时刻的输入样本,确定所述当前时刻的梯度;
基于所述当前时刻的梯度,更新所述初始分类模型;
其中,初始时刻的输入样本为所述已标注文本。
7.根据权利要求1至6任一项所述的训练样本构建方法,其特征在于,还包括:
基于所述未标注文本的分类结果,从所述未标注文本中筛选第二候选稀疏样本;
对所述第二候选稀疏样本和预设关键词进行关键词匹配,将匹配成功的所述第二候选稀疏样本作为训练样本。
8.一种训练样本构建装置,其特征在于,包括:
分类单元,用于基于已训练的初始分类模型,对未标注文本进行分类,得到所述未标注文本的分类结果;
样本筛选单元,用于基于所述未标注文本的分类结果,从所述未标注文本中筛选困难样本和/或第一候选稀疏样本;
标注单元,用于对所述困难样本和/或第一候选稀疏样本进行标注,得到训练样本。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述训练样本构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述训练样本构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111132630.0A CN113590764B (zh) | 2021-09-27 | 2021-09-27 | 训练样本构建方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111132630.0A CN113590764B (zh) | 2021-09-27 | 2021-09-27 | 训练样本构建方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590764A true CN113590764A (zh) | 2021-11-02 |
CN113590764B CN113590764B (zh) | 2021-12-21 |
Family
ID=78242330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111132630.0A Active CN113590764B (zh) | 2021-09-27 | 2021-09-27 | 训练样本构建方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590764B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114219046A (zh) * | 2022-01-26 | 2022-03-22 | 北京百度网讯科技有限公司 | 模型训练方法、匹配方法、装置、***、电子设备和介质 |
CN114648980A (zh) * | 2022-03-03 | 2022-06-21 | 科大讯飞股份有限公司 | 数据分类和语音识别方法、装置、电子设备及存储介质 |
WO2023083176A1 (zh) * | 2021-11-15 | 2023-05-19 | 中兴通讯股份有限公司 | 样本处理方法、设备及计算机可读存储介质 |
CN117574146A (zh) * | 2023-11-15 | 2024-02-20 | 广州方舟信息科技有限公司 | 文本分类标注方法、装置、电子设备和存储介质 |
WO2024119773A1 (zh) * | 2022-12-05 | 2024-06-13 | 苏州元脑智能科技有限公司 | 一种文本的标注方法、装置、电子设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130156300A1 (en) * | 2011-12-20 | 2013-06-20 | Fatih Porikli | Multi-Class Classification Method |
US10614379B2 (en) * | 2016-09-27 | 2020-04-07 | Disney Enterprises, Inc. | Robust classification by pre-conditioned lasso and transductive diffusion component analysis |
CN111104510A (zh) * | 2019-11-15 | 2020-05-05 | 南京中新赛克科技有限责任公司 | 一种基于词嵌入的文本分类训练样本扩充方法 |
CN111310846A (zh) * | 2020-02-28 | 2020-06-19 | 平安科技(深圳)有限公司 | 一种选取样本图像的方法、装置、存储介质和服务器 |
CN112256823A (zh) * | 2020-10-29 | 2021-01-22 | 山东众阳健康科技集团有限公司 | 一种基于邻接密度的语料数据抽样方法及*** |
CN112308144A (zh) * | 2020-10-30 | 2021-02-02 | 江苏云从曦和人工智能有限公司 | 一种筛选样本的方法、***、设备及介质 |
-
2021
- 2021-09-27 CN CN202111132630.0A patent/CN113590764B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130156300A1 (en) * | 2011-12-20 | 2013-06-20 | Fatih Porikli | Multi-Class Classification Method |
US10614379B2 (en) * | 2016-09-27 | 2020-04-07 | Disney Enterprises, Inc. | Robust classification by pre-conditioned lasso and transductive diffusion component analysis |
CN111104510A (zh) * | 2019-11-15 | 2020-05-05 | 南京中新赛克科技有限责任公司 | 一种基于词嵌入的文本分类训练样本扩充方法 |
CN111310846A (zh) * | 2020-02-28 | 2020-06-19 | 平安科技(深圳)有限公司 | 一种选取样本图像的方法、装置、存储介质和服务器 |
CN112256823A (zh) * | 2020-10-29 | 2021-01-22 | 山东众阳健康科技集团有限公司 | 一种基于邻接密度的语料数据抽样方法及*** |
CN112308144A (zh) * | 2020-10-30 | 2021-02-02 | 江苏云从曦和人工智能有限公司 | 一种筛选样本的方法、***、设备及介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023083176A1 (zh) * | 2021-11-15 | 2023-05-19 | 中兴通讯股份有限公司 | 样本处理方法、设备及计算机可读存储介质 |
CN114219046A (zh) * | 2022-01-26 | 2022-03-22 | 北京百度网讯科技有限公司 | 模型训练方法、匹配方法、装置、***、电子设备和介质 |
CN114219046B (zh) * | 2022-01-26 | 2023-07-28 | 北京百度网讯科技有限公司 | 模型训练方法、匹配方法、装置、***、电子设备和介质 |
CN114648980A (zh) * | 2022-03-03 | 2022-06-21 | 科大讯飞股份有限公司 | 数据分类和语音识别方法、装置、电子设备及存储介质 |
WO2024119773A1 (zh) * | 2022-12-05 | 2024-06-13 | 苏州元脑智能科技有限公司 | 一种文本的标注方法、装置、电子设备及可读存储介质 |
CN117574146A (zh) * | 2023-11-15 | 2024-02-20 | 广州方舟信息科技有限公司 | 文本分类标注方法、装置、电子设备和存储介质 |
CN117574146B (zh) * | 2023-11-15 | 2024-05-28 | 广州方舟信息科技有限公司 | 文本分类标注方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113590764B (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
US10679051B2 (en) | Method and apparatus for extracting information | |
CN102411563B (zh) | 一种识别目标词的方法、装置及*** | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
US20180357302A1 (en) | Method and device for processing a topic | |
KR20200127020A (ko) | 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN113780007A (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN112070138A (zh) | 多标签混合分类模型的构建方法、新闻分类方法及*** | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN104850617A (zh) | 短文本处理方法及装置 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、***及存储介质 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及*** | |
CN111368534A (zh) | 一种应用日志降噪方法及装置 | |
CN115758183A (zh) | 日志异常检测模型的训练方法及装置 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和*** | |
CN115062621A (zh) | 标签提取方法、装置、电子设备和存储介质 | |
CN114020904A (zh) | 试题文件筛选方法、模型训练方法、装置、设备及介质 | |
CN113095723A (zh) | 优惠券的推荐方法及装置 | |
CN109947932B (zh) | 一种推送信息分类方法及*** | |
CN108717637B (zh) | 一种电商安全相关实体的自动挖掘方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |