CN111723209B - 半监督文本分类模型训练方法、文本分类方法、***、设备及介质 - Google Patents

半监督文本分类模型训练方法、文本分类方法、***、设备及介质 Download PDF

Info

Publication number
CN111723209B
CN111723209B CN202010599107.8A CN202010599107A CN111723209B CN 111723209 B CN111723209 B CN 111723209B CN 202010599107 A CN202010599107 A CN 202010599107A CN 111723209 B CN111723209 B CN 111723209B
Authority
CN
China
Prior art keywords
sample
samples
unlabeled
text
text classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010599107.8A
Other languages
English (en)
Other versions
CN111723209A (zh
Inventor
刘江宁
鞠剑勋
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhilv Information Technology Co ltd
Original Assignee
Shanghai Zhilv Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhilv Information Technology Co ltd filed Critical Shanghai Zhilv Information Technology Co ltd
Priority to CN202010599107.8A priority Critical patent/CN111723209B/zh
Publication of CN111723209A publication Critical patent/CN111723209A/zh
Application granted granted Critical
Publication of CN111723209B publication Critical patent/CN111723209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种半监督文本分类模型训练方法、文本分类方法、***、设备及介质,该训练方法包括:获取初始样本集;对未标注样本增强得到数据增强样本;将未标注样本和数据增强样本输入文本分类模型,得到嵌入向量以及属于各分类标签的预测概率;针对各未标注样本,获取其与对应数据增强样本的嵌入向量均值作为新样本;针对各未标注样本,获取其与对应数据增强样本属于各分类标签的预测概率均值锐化后作为新样本的标签估计结果;校验新样本是否可信,若可信标记为可信任新样本;根据标注样本及可信任新样本构建置信样本集并进行扩充得到目标样本集;根据目标样本集对文本分类模型进行训练。本发明在标注样本缺乏的情况下提高文本分类的准确性。

Description

半监督文本分类模型训练方法、文本分类方法、***、设备及介质
技术领域
本发明涉及深度学习领域,尤其涉及一种半监督文本分类模型训练方法、文本分类方法、***、设备及介质。
背景技术
机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能,机器学习方法例如监督学习方法,通常要求历史数据都有明确的标注(称为有标注数据)且要求有大量的有标注数据。然而,在很多现实任务中,由于标注数据的获取需要耗费大量的人力物力资源,因此标注数据通常是稀少的,而大量没有标注的历史数据(称为未标注数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题,而半监督学习方法是该方面的两大主流技术之一。
文献10提出了用于半监督学习的插值一致性训练(ICT)方法,该方法鼓励模型对未标注数据插值的预测值与该数据预测值的插值保持一致。在此基础上,文献2【DavidBerthelot,Nicholas Carlini,Ian Goodfellow,Nicolas Papernot,Avital Oliver,andColin Raffel.Mixmatch:A holistic approach to semi-supervised learning.arXivpreprint arXiv:1905.02249,2019.】提出了MixMatch方法,该方法首先对未标注样本进行数据增强,而后猜测数据增强的未标注样本的低熵标签,最后使用文献3【Zhang,H.,Cisse,M.,Dauphin,Y.N.,and Lopez-Paz,D.mixup:Beyond empirical risk minimization.InInternational Conference on Learning Representations,2018.】公开的MixUp方法混合标注和未标注样本,以扩展训练样本。
然而,上述两种半监督方法专用于图像数据处理,并不能直接用于进行文本分类,以在标注样本缺乏的情况下提高文本分类的准确性。此外,以上两种半监督方法均未考虑模型对未标注样本预测值的置信度,可能将低熵标签不可靠的未标注样本用于进行样本扩展,影响训练模型的准确度。
发明内容
针对上述现有技术的不足,本发明提供一种半监督文本分类模型训练方法、文本分类方法、***、设备及介质,以解决上述技术问题。
为了实现上述目的,本发明提供一种半监督文本分类模型训练方法,包括:
获取初始样本集,所述初始样本集包括若干标注样本和未标注样本,所述标注样本标注有分类标签;
对各所述未标注样本进行文本数据增强处理,得到对应的数据增强样本;
将各所述未标注样本和各所述数据增强样本分别输入预设的文本分类模型进行处理,得到各所述未标注样本和各所述数据增强样本的嵌入向量以及属于各分类标签的预测概率;
针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本的嵌入向量均值,并将所述嵌入向量均值作为与该未标注样本对应的新样本的嵌入向量;
针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值,而后对所述预测概率均值进行锐化处理,得到锐化概率均值作为与该未标注样本对应的新样本的标签估计结果;
校验各所述新样本的标签估计结果是否可信,当可信时,将对应所述新样本标记为可信任新样本;
根据所述标注样本的嵌入向量与分类标签、以及所述可信任新样本的嵌入向量与标签估计结果,构建置信样本集;
对所述置信样本集进行数据扩充处理,得到目标样本集;
根据所述目标样本集,对所述文本分类模型进行训练,得到目标文本分类模型。
在本发明一个优选实施例中,所述校验各所述新样本的标签估计结果是否可信的步骤包括:
针对每个所述未标注样本,校验该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值中最大的一个是否大于预先获取的置信度阈值,若是,则判定与该未标注样本对应的新样本可信,否则,判定与该未标注样本对应的新样本不可信。
在本发明一个优选实施例中,在对各所述未标注样本进行文本数据增强处理之前,所述方法还包括:对所述标注样本和未标注样本进行数据清洗处理。
在本发明一个优选实施例中,所述对各所述未标注样本进行文本数据增强处理的步骤包括:
对各所述未标注样本进行反译处理,并将反译处理结果作为对应的数据增强样本。
在本发明一个优选实施例中,所述对各所述未标注样本进行文本数据增强处理的步骤包括:
利用TF-IDF算法获取各所述未标注样本中的关键词和非关键词;
对各所述未标注样本中的非关键词进行词替换处理,并将词替换处理结果作为对应的数据增强样本。
在本发明一个优选实施例中,所述对所述置信样本集进行数据扩充处理,得到目标样本集的步骤包括:
将所述置信样本集分成两部分,第一部分样本包含的样本数量与所述标注样本的数量一致,除所述第一部分样本以外的样本作为第二部分样本;
利用MixUp算法对所述第一部分样本与所述标注样本进行处理,得到第一插值样本集;
利用MixUp算法对所述第二部分样本与所述新样本进行处理,得到第二差值样本集;
将所述第一插值样本集与所述第二差值样本集合并成所述目标样本集。
为了实现上述目的,本发明还提供一种文本分类方法,包括:
获取目标文本;
将所述目标文本输入根据所述文本分类模型训练方法训练得到的目标文本分类模型中进行处理,得到所述目标文本属于各分类标签的预测概率,并将预测概率最大值所对应的分类标签作为所述目标文本的分类结果。
为了实现上述目的,本发明还提供一种半监督文本分类模型训练***,包括:
初始样本集获取模块,用于获取初始样本集,所述初始样本集包括若干标注样本和未标注样本,所述标注样本标注有分类标签;
增强模块,用于对各所述未标注样本进行文本数据增强处理,得到对应的数据增强样本;
模型处理模块,用于将各所述未标注样本和各所述数据增强样本分别输入预设的文本分类模型进行处理,得到各所述未标注样本和各所述数据增强样本的嵌入向量以及属于各分类标签的预测概率;
新样本构建模块,用于针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本的嵌入向量均值,并将所述嵌入向量均值作为与该未标注样本对应的新样本的嵌入向量;
标签估计模块,用于针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值,而后对所述预测概率均值进行锐化处理,得到锐化概率均值作为与该未标注样本对应的新样本的标签估计结果;
校验模块,用校验各所述新样本的标签估计结果是否可信;
可信任样本获取模块,用于在某新样本的标签估计结果可信时,将对应所述新样本标记为可信任新样本;
置信样本集构建模块,用于根据所述标注样本的嵌入向量与分类标签、以及所述可信任新样本的嵌入向量与标签估计结果,构建置信样本集;
扩充模块,用于对所述置信样本集进行数据扩充处理,得到目标样本集;
模型训练模块,用于根据所述目标样本集,对所述文本分类模型进行训练,得到目标文本分类模型。
在本发明一个优选实施例中,所述校验模块具体用于:
针对每个所述未标注样本,校验该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值中最大的一个是否大于预先获取的置信度阈值,若是,则判定与该未标注样本对应的新样本可信,否则,判定与该未标注样本对应的新样本不可信。
在本发明一个优选实施例中,所述***还包括:清洗模块,用于在对各所述未标注样本进行文本数据增强处理之前,对所述标注样本和未标注样本进行数据清洗处理。
在本发明一个优选实施例中,所述增强模块包括:反译单元,用于对各所述未标注样本进行反译处理,并将反译处理结果作为对应的数据增强样本。
在本发明一个优选实施例中,所述增强模块包括:TF-IDF增强单元,用于利用TF-IDF算法获取各所述未标注样本中的关键词和非关键词,对各所述未标注样本中的非关键词进行词替换处理,并将词替换处理结果作为对应的数据增强样本。
在本发明一个优选实施例中,所述的扩充模块具体用于:
将所述置信样本集分成两部分,第一部分样本包含的样本数量与所述标注样本的数量一致,除所述第一部分样本以外的样本作为第二部分样本;
利用MixUp算法对所述第一部分样本与所述标注样本进行处理,得到第一插值样本集;
利用MixUp算法对所述第二部分样本与所述新样本进行处理,得到第二差值样本集;
将所述第一插值样本集与所述第二差值样本集合并成所述目标样本集。
为了实现上述目的,本发明还提供一种文本分类***,包括:
目标文本获取模块,用于获取目标文本;
分类模块,用于将所述目标文本输入根据所述文本分类模型训练方法训练得到的目标文本分类模型中进行处理,得到所述目标文本属于各分类标签的预测概率,并将预测概率最大值所对应的分类标签作为所述目标文本的分类结果。
为了实现上述目的,本发明还提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述半监督文本分类模型训练方法或文本分类方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述半监督文本分类模型训练方法或文本分类方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明首先构建可信任新样本,而后基于标注样本和可信任新样本构建置信样本集并进行扩充,最后利用扩充后的样本集对文本分类模型进行训练,从而缓解了标注样本缺乏问题,提升了文本分类模型的性能。此外,通过校验各所述新样本的标签估计结果是否可信,可以避免不可信新样本对模型的影响,能够进一步提高文本分类模型的准确性。
附图说明
图1为本发明实施例1的半监督文本分类模型训练方法的流程图;
图2为本发明实施例2的文本分类方法的流程图;
图3为本发明实施例3的半监督文本分类模型训练***的结构框图;
图4为本发明实施例4的文本分类***的结构框图;
图5为本发明实施例5的电子设备的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例1
本实施例提供一种半监督文本分类模型训练方法,如图1所示,该方法包括以下步骤:
S101,获取初始样本集,初始样本集包含标注样本集
Figure BDA0002558010840000081
和未标注样本集
Figure BDA0002558010840000082
其中,xi表示第i个标注样本,ui表示第i个未标注样本,n表示标注样本的数量,m表示未标注样本的数量。在本实施例中,标注样本是指标注有分类标签的样本,未标注样本是指未标注分类标签的样本。
S102,对各标注样本xi和未标注样本ui进行数据清洗处理。例如,假设需要训练针对某一种语言(如中文)的文本分类模型,则删除样本中非该语言的字词。此外,还可以进行停用词过滤等清洗处理,停用词过滤是指将“的、了、过”之类无意义的字词汇总在预设的停用表中,当样本中出现上述字词,则删除该样本中的上述字词。需说明的是,本实施例并不对数据清洗的具体方式作任何限定。
S103,对各未标注样本ui进行文本数据增强处理,得到对应的数据增强样本。在本实施例中,可以采用以下两种方式进行文本数据增强处理:
第一种,对未标注样本ui进行反译(back translation)处理,先将未标注样本从初始语言(如中文)翻译成另一种语言(英文),再从另一种语言重新翻译成初始语言,得到未标注样本ui对应的第一数据增强样本
Figure BDA0002558010840000083
Figure BDA0002558010840000084
其中,Augmentback_translation()表示反译增强算法。
第二种,首先利用TF-IDF算法获取各未标注样本ui中的关键词(TF-IDF分数较高的为关键词)和非关键词(TF-IDF分数较低的为关键词);而后对各未标注样本ui中的非关键词进行词替换处理,得到未标注样本ui对应的第二数据增强样本
Figure BDA0002558010840000091
其中,AugmentTF-IDF()表示TF-IDF增强算法。具体地,在对各未标注样本ui中的非关键词进行词替换处理时,将该样本中待替换的非关键词替换成另一个非关键词即可。
在本实施例中,优选采用上述两种方式同时对未标注文本进行数据增强处理。同时应该理解,除上述两种方式以外,本发明还可以采用其它合适的方法进行文本数据增强处理,本发明并不对增强方式作任何限定。
S104,将各未标注样本和各数据增强样本分别输入预训练的文本分类模型进行处理,得到各未标注样本和各数据增强样本的嵌入向量
Figure BDA0002558010840000092
以及属于各分类标签的预测概率
Figure BDA0002558010840000093
其中,
Figure BDA0002558010840000094
Embeddingmodel()表示文本分类模型的嵌入算法,
Figure BDA0002558010840000095
表示文本分类模型,y表示对应样本属于各分类标签的预测概率,θ表示文本分类模型的权重系数。
在本实施例中,文本分类模型优选采用BERT模型,当然也可以采用其它任意合适的文本分类模型,本发明并不对采用的文本分类模型的类型作任何限定。
S105,针对每个未标注样本,获取该未标注样本ui与对应的数据增强样本
Figure BDA0002558010840000096
的嵌入向量均值
Figure BDA0002558010840000097
并将嵌入向量均值
Figure BDA0002558010840000098
作为与该未标注样本ui对应的新样本的嵌入向量。
S106,针对每个未标注样本ui,获取该未标注样本ui与对应的数据增强样本
Figure BDA0002558010840000099
属于各分类标签的预测概率均值
Figure BDA00025580108400000910
而后对预测概率均值
Figure BDA00025580108400000911
进行锐化处理,得到锐化概率均值
Figure BDA00025580108400000912
Figure BDA00025580108400000913
作为与该未标注样本ui对应的新样本
Figure BDA00025580108400000914
的标签估计结果。其中,Sharpen()表示锐化算法,T为超参数,用于控制锐化程度,当T←0时,锐化方法可以使得概率分布近似于one-hot分布。在本实施例中,锐化方法优选采用前述文献2中的锐化算法进行处理。
本步骤假定未标注样本ui与对应的数据增强样本
Figure BDA0002558010840000101
的嵌入向量均值
Figure BDA0002558010840000102
落在未标注样本ui的邻域或聚类中。根据前述文献1的聚类假设,如果两个样本在输入分布中属于同一个聚类,那么它们很可能属于同一个类别,设定
Figure BDA0002558010840000103
的标签为qi。通过采用未标注样本ui与对应的数据增强样本
Figure BDA0002558010840000104
属于各分类标签的预测概率均值
Figure BDA0002558010840000105
进行标签估计,从而使得到的标签估计结果更接近对应新样本
Figure BDA0002558010840000106
的真实标签。
S107,校验各新样本的标签估计结果是否可信,当可信时,将对应新样本标记为可信任新样本
Figure BDA0002558010840000107
具体来说,针对每个未标注样本ui,校验该未标注样本与对应的数据增强样本属于各分类标签的预测概率均值中概率最大的一个
Figure BDA0002558010840000108
是否大于预先获取的置信度阈值μ,若是,则判定与该未标注样本ui对应的新样本
Figure BDA0002558010840000109
可信,否则,判定与该未标注样本ui对应的新样本
Figure BDA00025580108400001010
不可信。
为了降低标签估计结果误差对后续插值处理结果的影响,本实施例引入置信度阈值,用以控制后续标注样本仅与标签估计结果可信的新样本进行插值处理。本实施例可以采用如下四种方式中的任意一种生成置信度阈值:
第一种,置信度阈值μ设置为固定值,如0.8;
第二种,置信度阈值μlinear随模型训练步数成线性增长,即
Figure BDA00025580108400001011
Figure BDA00025580108400001012
第三种,置信度阈值μexp随模型训练步数成指数增长,即
Figure BDA00025580108400001013
Figure BDA00025580108400001014
第四种,置信度阈值μlog随模型训练步数成对数增长,即
Figure BDA00025580108400001015
Figure BDA0002558010840000111
其中,z表示当前模型的训练步数,Z表示模型总的训练步数,μmax表示最大的置信度阈值,L为标签数量。应该理解,除了上述四种方式以外,还可以采用其它合适方法生在置信度阈值,本发明并不对置信度阈值的生成方法进行任何限定。
S108,根据标注样本的嵌入向量
Figure BDA0002558010840000112
与分类标签pi、以及可信任新样本的嵌入向量
Figure BDA0002558010840000113
与标签估计结果
Figure BDA0002558010840000114
构建置信样本集
Figure BDA0002558010840000115
其中,
Figure BDA0002558010840000116
k表示可信任新样本的总数,
Figure BDA0002558010840000117
表示将
Figure BDA0002558010840000118
合并,
Figure BDA0002558010840000119
表示将
Figure BDA00025580108400001110
合并后的结果中各样本的位置随机打乱。
S109,对置信样本集进行数据扩充处理,得到目标样本集,具体数据扩充处理过程如下:
首先,将置信样本集分成两部分,第一部分样本Wi包含的样本数量与标注样本的数量一致,即
Figure BDA00025580108400001111
将除第一部分样本以外的样本作为第二部分样本
Figure BDA00025580108400001112
而后,利用前述文献2中采用的MixUp算法对第一部分样本与标注样本进行处理,得到第一插值样本集
Figure BDA00025580108400001113
同时,利用前述MixUp算法对第二部分样本与新样本进行处理,得到第二差值样本集
Figure BDA00025580108400001114
其中,MixUp()表示MixUp算法。
最后,将第一插值样本集X′与第二差值样本集U′合并成目标样本集。
在本实施例中,MixUp算法用于生成样本的线性插值。具体地,对于样本(x1,p1)和(x2,p2)来说,其生成线性插值的公式如下:
γ=Beta(a,a)                             (1)
γ′=max(γ,1-γ)                            (2)
x′=γ′x1+(1-γ′)x2                        (3)
p′=γ′p1+(1-γ′)p2                        (4)
其中,a是超参数,控制特征-目标对之间的插值强度;当a←0时,γ=1,邻域风险最小化(Vicinal Risk Minimization,VRM)恢复为经验风险最小化(Empirical RiskMinimization,ERM)。
S110,根据目标样本集,对文本分类模型进行迭代训练,直至设置的损失函数收敛,得到目标文本分类模型。
在本实施例中,定义了文本分类模型的损失函数L定义如下:
Figure BDA0002558010840000121
Figure BDA0002558010840000122
L=LX+LU                               (7)
其中,C(p,Pmodel(y|x;θ))表示p与Pmodel(y|x;θ)的交叉熵,DKL(q,Pmodel(y|u;θ))表示q与(y|u;θ)的KL散度。
本实施例在中文情感分析语料chnsenticorp上验证方法的有效性,结果如表1所示。本发明从9600条训练数据中采样了200条标注样本和3000条未标注样本、以及960条标注样本和3000条未标注样本两组样本,并分别根据两组样本测试了BERT模型采用有监督训练方法和采用本实施例的半监督训练方法的准确率,结果如下表1所示:
表1
Figure BDA0002558010840000123
Figure BDA0002558010840000131
可见,本实施例中的半监督文本分类模型训练方法能够提高BERT模型的准确度。并且根据实验,相比于不采用置信度阈值进行样本过滤,采用置信度阈值进行样本过滤后训练的模型准确度更高,其中,当采用随模型训练步数成对数增长的动态置信度阈值作用于模型,效果尤为显著。
实施例2
本实施例提供一种文本分类方法,如图2所示,包括以下步骤:
S201,获取待分类的目标文本;
S202,将目标文本输入根据前述文本分类模型训练方法训练得到的目标文本分类模型中进行处理,得到目标文本属于各分类标签的预测概率,并将预测概率最大值所对应的分类标签作为目标文本的分类结果。
由于根据前述文本分类模型训练方法训练得到的目标文本分类模型的准确性高,所以本实施例得到的分类结果更加准确。
实施例3
本实施例提供一种半监督文本分类模型训练***,如图3所示,该***10包括:初始样本集获取模块101、清洗模块102、增强模块103、模型处理模块104、新样本构建模块105、标签估计模块106、校验模块107、可信任样本获取模块108、置信样本集构建模块109、扩充模块110以及模型训练模块111。下面分别对每个模块进行详细描述:
初始样本集获取模块101用于获取初始样本集,初始样本集包含标注样本集
Figure BDA0002558010840000132
和未标注样本集
Figure BDA0002558010840000133
其中,xi表示第i个标注样本,ui表示第i个未标注样本,n表示标注样本的数量,m表示未标注样本的数量。在本实施例中,标注样本是指标注有分类标签的样本,未标注样本是指未标注分类标签的样本。
清洗模块102用于对各标注样本xi和未标注样本ui进行数据清洗处理。例如,假设需要训练针对某一种语言(如中文)的文本分类模型,则删除样本中非该语言的字词。此外,还可以进行停用词过滤等清洗处理,停用词过滤是指将“的、了、过”之类无意义的字词汇总在预设的停用表中,当样本中出现上述字词,则删除该样本中的上述字词。需说明的是,本实施例并不对数据清洗的具体方式作任何限定。
增强模块103用于对各未标注样本ui进行文本数据增强处理,得到对应的数据增强样本。增强模块103可以通过以下两个单元中的任何一个或两个进行文本数据增强处理:
反译增强单元,用于对未标注样本ui进行反译(back translation)处理,先将未标注样本从初始语言(如中文)翻译成另一种语言(英文),再从另一种语言重新翻译成初始语言,得到未标注样本ui对应的第一数据增强样本
Figure BDA0002558010840000141
其中,Augmentback_translation()表示反译增强算法。
TF-IDF增强单元,其首先利用TF-IDF算法获取各未标注样本ui中的关键词(TF-IDF分数较高的为关键词)和非关键词(TF-IDF分数较低的为关键词);而后对各未标注样本ui中的非关键词进行词替换处理,得到未标注样本ui对应的第二数据增强样本
Figure BDA0002558010840000142
其中,AugmentTF-IDF()表示TF-IDF增强算法。具体地,在对各未标注样本ui中的非关键词进行词替换处理时,将该样本中待替换的非关键词替换成另一个非关键词即可。
在本实施例中,优选采用上述两个单元同时对未标注文本进行数据增强处理。应该理解,除上述两种方式以外,本发明还可以采用其它合适的方法进行文本数据增强处理,本发明并不对增强方式作任何限定。
模型处理模块104用于将各未标注样本和各数据增强样本分别输入预训练的文本分类模型进行处理,得到各未标注样本和各数据增强样本的嵌入向量
Figure BDA0002558010840000151
以及属于各分类标签的预测概率
Figure BDA0002558010840000152
其中,
Figure BDA0002558010840000153
Embeddingmodel()表示文本分类模型的嵌入算法,
Figure BDA0002558010840000154
表示文本分类模型,y表示对应样本属于各分类标签的预测概率,θ表示文本分类模型的权重系数。
在本实施例中,文本分类模型优选采用BERT模型,当然也可以采用其它任意合适的文本分类模型,本发明并不对采用的文本分类模型的类型作任何限定。
新样本构建模块105用于针对每个未标注样本,获取该未标注样本ui与对应的数据增强样本
Figure BDA0002558010840000155
的嵌入向量均值
Figure BDA0002558010840000156
Figure BDA0002558010840000157
并将嵌入向量均值
Figure BDA0002558010840000158
作为与该未标注样本ui对应的新样本的嵌入向量。
标签估计模块106用于针对每个未标注样本ui,获取该未标注样本ui与对应的数据增强样本
Figure BDA0002558010840000159
属于各分类标签的预测概率均值
Figure BDA00025580108400001510
Figure BDA00025580108400001511
而后对预测概率均值
Figure BDA00025580108400001512
进行锐化处理,得到锐化概率均值
Figure BDA00025580108400001513
作为与该未标注样本ui对应的新样本
Figure BDA00025580108400001514
的标签估计结果。其中,Sharpen()表示锐化算法,T为超参数,用于控制锐化程度,当T←0时,锐化方法可以使得概率分布近似于one-hot分布。在本实施例中,锐化方法优选采用前述文献2中的锐化算法进行处理。
本步骤假定未标注样本ui与对应的数据增强样本
Figure BDA0002558010840000161
的嵌入向量均值
Figure BDA0002558010840000162
落在未标注样本ui的邻域或聚类中。根据前述文献1的聚类假设,如果两个样本在输入分布中属于同一个聚类,那么它们很可能属于同一个类别,设定
Figure BDA0002558010840000163
的标签为qi。通过采用未标注样本ui与对应的数据增强样本
Figure BDA0002558010840000164
属于各分类标签的预测概率均值
Figure BDA0002558010840000165
进行标签估计,从而使得到的标签估计结果更接近对应新样本
Figure BDA0002558010840000166
的真实标签。
校验模块107用于校验各新样本的标签估计结果是否可信。具体来说,针对每个未标注样本ui,校验该未标注样本与对应的数据增强样本属于各分类标签的预测概率均值中概率最大的一个
Figure BDA0002558010840000167
是否大于预先获取的置信度阈值μ,若是,则判定与该未标注样本ui对应的新样本
Figure BDA0002558010840000168
可信,否则,判定与该未标注样本ui对应的新样本
Figure BDA0002558010840000169
不可信。
为了降低标签估计结果误差对后续插值处理结果的影响,本实施例引入置信度阈值,用以控制后续标注样本仅与标签估计结果可信的新样本进行插值处理。本实施例可以采用如下四种方式中的任意一种生成置信度阈值:
第一种,置信度阈值μ设置为固定值,如0.8;
第二种,置信度阈值μlinear随模型训练步数成线性增长,即
Figure BDA00025580108400001610
Figure BDA00025580108400001611
第三种,置信度阈值μexp随模型训练步数成指数增长,即
Figure BDA00025580108400001612
Figure BDA00025580108400001613
第四种,置信度阈值μlog随模型训练步数成对数增长,即
Figure BDA00025580108400001614
Figure BDA00025580108400001615
其中,z表示当前模型的训练步数,Z表示模型总的训练步数,μmax表示最大的置信度阈值,L为标签数量。应该理解,除了上述四种方式以外,还可以采用其它合适方法生在置信度阈值,本发明并不对置信度阈值的生成方法进行任何限定。
可信任样本获取模块108用于在某新样本的标签估计结果可信时,将对应新样本标记为可信任新样本
Figure BDA0002558010840000171
置信样本集构建模块109用于根据标注样本的嵌入向量
Figure BDA0002558010840000172
Figure BDA0002558010840000173
与分类标签pi、以及可信任新样本的嵌入向量
Figure BDA0002558010840000174
与标签估计结果
Figure BDA0002558010840000175
构建置信样本集
Figure BDA0002558010840000176
其中,
Figure BDA0002558010840000177
Figure BDA0002558010840000178
k表示可信任新样本的总数,
Figure BDA0002558010840000179
表示将
Figure BDA00025580108400001710
合并,
Figure BDA00025580108400001711
表示将
Figure BDA00025580108400001712
合并后的结果中各样本的位置随机打乱。
扩充模块110对置信样本集进行数据扩充处理,得到目标样本集,具体数据扩充处理过程如下:
首先,将置信样本集分成两部分,第一部分样本Wi包含的样本数量与标注样本的数量一致,即
Figure BDA00025580108400001713
将除第一部分样本以外的样本作为第二部分样本
Figure BDA00025580108400001714
而后,利用前述文献2中采用的MixUp算法对第一部分样本与标注样本进行处理,得到第一插值样本集
Figure BDA00025580108400001715
同时,利用前述MixUp算法对第二部分样本与新样本进行处理,得到第二差值样本集
Figure BDA00025580108400001716
其中,MixUp()表示MixUp算法。
最后,将第一插值样本集X′与第二差值样本集U′合并成目标样本集。
在本实施例中,MixUp算法用于生成样本的线性插值。具体地,对于样本(x1,p1)和(x2,p2)来说,其生成线性插值的公式如下:
γ=Beta(a,a)                             (1)
γ′=max(γ,1-γ)                            (2)
x′=γ′x1+(1-γ′)x2                        (3)
p′=γ′p1+(1-γ′)p2                        (4)
其中,a是超参数,控制特征-目标对之间的插值强度;当a←0时,γ=1,邻域风险最小化(Vicinal Risk Minimization,VRM)恢复为经验风险最小化(Empirical RiskMinimization,ERM)。
模型训练模块111根据目标样本集,对文本分类模型进行迭代训练,直至设置的损失函数收敛,得到目标文本分类模型。
在本实施例中,定义了文本分类模型的损失函数L定义如下:
Figure BDA0002558010840000181
Figure BDA0002558010840000182
L=LX+LU                               (7)
其中,C(p,Pmodel(y|x;θ))表示p与Pmodel(y|x;θ)的交叉熵,DKL(q,Pmodel(y|u;θ))表示q与(y|u;θ)的KL散度。
本实施例在中文情感分析语料chnsenticorp上验证方法的有效性,结果如表1所示。本发明从9600条训练数据中采样了200条标注样本和3000条未标注样本、以及960条标注样本和3000条未标注样本两组样本,并分别根据两组样本测试了BERT模型采用有监督训练方法和采用本实施例的半监督训练方法的准确率,结果如下表1所示:
表1
Figure BDA0002558010840000183
Figure BDA0002558010840000191
可见,本实施例中的半监督文本分类模型训练方法能够提高BERT模型的准确度。并且根据实验,相比于不采用置信度阈值进行样本过滤,采用置信度阈值进行样本过滤后训练的模型准确度更高,其中,当采用随模型训练步数成对数增长的动态置信度阈值作用于模型,效果尤为显著。
需要说明的是,对于本实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
实施例4
本实施例提供一种文本分类***,如图4所示,该***20包括:
目标文本获取模块201,用于获取待分类的目标文本;
分类模块202,用于将目标文本输入根据前述文本分类模型训练***训练得到的目标文本分类模型中进行处理,得到目标文本属于各分类标签的预测概率,并将预测概率最大值所对应的分类标签作为目标文本的分类结果。
由于根据前述文本分类模型训练***训练得到的目标文本分类模型的准确性高,所以本实施例得到的分类结果更加准确。
实施例5
本实施例提供一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现实施例1提供的基于半监督文本分类模型训练方法、或者实施例2提供的文本分类方法。
图5示出了本实施例的硬件结构示意图,如图5所示,电子设备9具体包括:
至少一个处理器91、至少一个存储器92以及用于连接不同***组件(包括处理器91和存储器92)的总线93,其中:
总线93包括数据总线、地址总线和控制总线。
存储器92包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1提供的基于半监督文本分类模型训练方法、或者实施例2提供的文本分类方法。
电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1提供的基于半监督文本分类模型训练方法、或者实施例2提供的文本分类方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1提供的基于半监督文本分类模型训练方法、或者实施例2提供的文本分类方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (14)

1.一种半监督文本分类模型训练方法,其特征在于,包括:
获取初始样本集,所述初始样本集包括若干标注样本和未标注样本,所述标注样本标注有分类标签;
对各所述未标注样本进行文本数据增强处理,得到对应的数据增强样本;
将各所述未标注样本和各所述数据增强样本分别输入预设的文本分类模型进行处理,得到各所述未标注样本和各所述数据增强样本的嵌入向量以及属于各分类标签的预测概率;
针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本的嵌入向量均值,并将所述嵌入向量均值作为与该未标注样本对应的新样本的嵌入向量;
针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值,而后对所述预测概率均值进行锐化处理,得到锐化概率均值作为与该未标注样本对应的新样本的标签估计结果;
校验各所述新样本的标签估计结果是否可信,当可信时,将对应所述新样本标记为可信任新样本;
根据所述标注样本的嵌入向量与分类标签、以及所述可信任新样本的嵌入向量与标签估计结果,构建置信样本集;
对所述置信样本集进行数据扩充处理,得到目标样本集;
根据所述目标样本集,对所述文本分类模型进行训练,得到目标文本分类模型;
针对每个所述未标注样本,校验该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值中最大的一个是否大于预先获取的置信度阈值,若是,则判定与该未标注样本对应的新样本可信,否则,判定与该未标注样本对应的新样本不可信;
所述对所述置信样本集进行数据扩充处理,得到目标样本集的步骤包括:
将所述置信样本集分成两部分,第一部分样本包含的样本数量与所述标注样本的数量一致,除所述第一部分样本以外的样本作为第二部分样本;
利用MixUp算法对所述第一部分样本与所述标注样本进行处理,得到第一插值样本集;
利用MixUp算法对所述第二部分样本与所述新样本进行处理,得到第二差值样本集;
将所述第一插值样本集与所述第二差值样本集合并成所述目标样本集。
2.根据权利要求1所述的半监督文本分类模型训练方法,其特征在于,在对各所述未标注样本进行文本数据增强处理之前,所述方法还包括:对所述标注样本和未标注样本进行数据清洗处理。
3.根据权利要求1所述的半监督文本分类模型训练方法,其特征在于,所述对各所述未标注样本进行文本数据增强处理的步骤包括:
对各所述未标注样本进行反译处理,并将反译处理结果作为对应的数据增强样本。
4.根据权利要求1所述的半监督文本分类模型训练方法,其特征在于,所述对各所述未标注样本进行文本数据增强处理的步骤包括:
利用TF-IDF算法获取各所述未标注样本中的关键词和非关键词;
对各所述未标注样本中的非关键词进行词替换处理,并将词替换处理结果作为对应的数据增强样本。
5.一种文本分类方法,其特征在于,包括:
获取目标文本;
将所述目标文本输入根据前述权利要求1-4中任意一项所述的文本分类模型训练方法训练得到的目标文本分类模型中进行处理,得到所述目标文本属于各分类标签的预测概率,并将预测概率最大值所对应的分类标签作为所述目标文本的分类结果。
6.一种半监督文本分类模型训练***,其特征在于,包括:
初始样本集获取模块,用于获取初始样本集,所述初始样本集包括若干标注样本和未标注样本,所述标注样本标注有分类标签;
增强模块,用于对各所述未标注样本进行文本数据增强处理,得到对应的数据增强样本;
模型处理模块,用于将各所述未标注样本和各所述数据增强样本分别输入预设的文本分类模型进行处理,得到各所述未标注样本和各所述数据增强样本的嵌入向量以及属于各分类标签的预测概率;
新样本构建模块,用于针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本的嵌入向量均值,并将所述嵌入向量均值作为与该未标注样本对应的新样本的嵌入向量;
标签估计模块,用于针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值,而后对所述预测概率均值进行锐化处理,得到锐化概率均值作为与该未标注样本对应的新样本的标签估计结果;
校验模块,用校验各所述新样本的标签估计结果是否可信;
可信任样本获取模块,用于在某新样本的标签估计结果可信时,将对应所述新样本标记为可信任新样本;
置信样本集构建模块,用于根据所述标注样本的嵌入向量与分类标签、以及所述可信任新样本的嵌入向量与标签估计结果,构建置信样本集;
扩充模块,用于对所述置信样本集进行数据扩充处理,得到目标样本集;
模型训练模块,用于根据所述目标样本集,对所述文本分类模型进行训练,得到目标文本分类模型;
所述校验模块具体用于:
针对每个所述未标注样本,校验该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值中最大的一个是否大于预先获取的置信度阈值,若是,则判定与该未标注样本对应的新样本可信,否则,判定与该未标注样本对应的新样本不可信;
所述的扩充模块具体用于:
将所述置信样本集分成两部分,第一部分样本包含的样本数量与所述标注样本的数量一致,除所述第一部分样本以外的样本作为第二部分样本;
利用MixUp算法对所述第一部分样本与所述标注样本进行处理,得到第一插值样本集;
利用MixUp算法对所述第二部分样本与所述新样本进行处理,得到第二差值样本集;
将所述第一插值样本集与所述第二差值样本集合并成所述目标样本集。
7.根据权利要求6所述的半监督文本分类模型训练***,其特征在于,所述***还包括:清洗模块,用于在对各所述未标注样本进行文本数据增强处理之前,对所述标注样本和未标注样本进行数据清洗处理。
8.根据权利要求6所述的半监督文本分类模型训练***,其特征在于,所述增强模块包括:反译单元,用于对各所述未标注样本进行反译处理,并将反译处理结果作为对应的数据增强样本。
9.根据权利要求6所述的半监督文本分类模型训练***,其特征在于,所述增强模块包括:TF-IDF增强单元,用于利用TF-IDF算法获取各所述未标注样本中的关键词和非关键词,对各所述未标注样本中的非关键词进行词替换处理,并将词替换处理结果作为对应的数据增强样本。
10.一种文本分类***,其特征在于,包括:
目标文本获取模块,用于获取目标文本;
分类模块,用于将所述目标文本输入根据前述权利要求6-9中任意一项所述的述文本分类模型训练***训练得到的目标文本分类模型中进行处理,得到所述目标文本属于各分类标签的预测概率,并将预测概率最大值所对应的分类标签作为所述目标文本的分类结果。
11.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述半监督文本分类模型训练方法的步骤。
12.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求5所述文本分类方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述半监督文本分类模型训练方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求5所述文本分类方法的步骤。
CN202010599107.8A 2020-06-28 2020-06-28 半监督文本分类模型训练方法、文本分类方法、***、设备及介质 Active CN111723209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010599107.8A CN111723209B (zh) 2020-06-28 2020-06-28 半监督文本分类模型训练方法、文本分类方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010599107.8A CN111723209B (zh) 2020-06-28 2020-06-28 半监督文本分类模型训练方法、文本分类方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN111723209A CN111723209A (zh) 2020-09-29
CN111723209B true CN111723209B (zh) 2023-04-25

Family

ID=72569432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010599107.8A Active CN111723209B (zh) 2020-06-28 2020-06-28 半监督文本分类模型训练方法、文本分类方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN111723209B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519114A (zh) * 2020-11-20 2022-05-20 北京达佳互联信息技术有限公司 多媒体资源分类模型构建方法、装置、服务器及存储介质
CN112463964B (zh) * 2020-12-01 2023-01-17 科大讯飞股份有限公司 文本分类及模型训练方法、装置、设备及存储介质
CN112347261A (zh) * 2020-12-07 2021-02-09 携程计算机技术(上海)有限公司 分类模型训练方法、***、设备及存储介质
CN112488237A (zh) * 2020-12-07 2021-03-12 北京天融信网络安全技术有限公司 一种分类模型的训练方法及装置
CN112632278A (zh) * 2020-12-18 2021-04-09 平安普惠企业管理有限公司 一种基于多标签分类的标注方法、装置、设备及存储介质
CN112711660B (zh) * 2020-12-29 2023-09-26 易方达基金管理有限公司 文本分类样本的构建方法和文本分类模型的训练方法
CN112733708A (zh) * 2021-01-08 2021-04-30 山东交通学院 一种基于半监督学习的肝门静脉检测定位方法与***
CN112784911B (zh) * 2021-01-29 2024-01-19 北京百度网讯科技有限公司 训练样本的生成方法、装置、电子设备和存储介质
CN112800747A (zh) * 2021-02-02 2021-05-14 虎博网络技术(北京)有限公司 文本处理方法、装置及计算机设备
CN112800229B (zh) * 2021-02-05 2022-12-20 昆明理工大学 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN113378563B (zh) * 2021-02-05 2022-05-17 中国司法大数据研究院有限公司 一种基于遗传变异和半监督的案件特征提取方法及装置
CN112528030A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种用于文本分类的半监督学习方法和***
CN112989841B (zh) * 2021-02-24 2021-09-21 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN112861842A (zh) * 2021-03-22 2021-05-28 天津汇智星源信息技术有限公司 基于ocr的案件文本识别方法及电子设备
CN113064993B (zh) * 2021-03-23 2023-07-21 南京视察者智能科技有限公司 一种基于大数据的自动化文本分类标注***的设计方法、优化方法及标注方法
CN112765359B (zh) * 2021-04-07 2021-06-18 成都数联铭品科技有限公司 一种基于少样本的文本分类方法
CN113177119B (zh) * 2021-05-07 2024-02-02 北京沃东天骏信息技术有限公司 文本分类模型训练、分类方法和***及数据处理***
CN113220883B (zh) * 2021-05-17 2023-12-26 华南师范大学 一种文本分类方法、装置及存储介质
CN113268740B (zh) * 2021-05-27 2022-08-16 四川大学 一种网站***的输入约束完备性检测方法
CN113360644B (zh) * 2021-05-27 2024-04-09 中国平安人寿保险股份有限公司 文本模型再训练的方法、装置、设备及存储介质
CN113420786A (zh) * 2021-05-31 2021-09-21 杭州电子科技大学 一种特征混合图像的半监督分类方法
CN113312451B (zh) * 2021-06-15 2023-06-23 北京百度网讯科技有限公司 文本标签确定方法和装置
CN113591927B (zh) * 2021-07-02 2024-04-19 北京地平线机器人技术研发有限公司 一种检测模型的训练方法及装置
CN113807171B (zh) * 2021-08-10 2023-09-29 三峡大学 一种基于半监督迁移学习的文本分类方法
CN113536770B (zh) * 2021-09-09 2021-11-30 平安科技(深圳)有限公司 基于人工智能的文本解析方法、装置、设备及存储介质
CN114974579B (zh) * 2022-04-20 2024-02-27 山东大学齐鲁医院 消化道粘膜下肿瘤内镜治疗预后的辅助判定***及设备
CN114595333B (zh) * 2022-04-27 2022-08-09 之江实验室 一种用于舆情文本分析的半监督方法和装置
CN115132303A (zh) * 2022-04-28 2022-09-30 腾讯科技(深圳)有限公司 生理标签预测方法、模型训练方法、装置、设备及介质
CN114925773A (zh) * 2022-05-30 2022-08-19 阿里巴巴(中国)有限公司 模型训练方法、装置、电子设备以及存储介质
CN115393639B (zh) * 2022-08-16 2023-08-11 广州市玄武无线科技股份有限公司 商品智能打标方法、***、终端设备及可读存储介质
CN115952290B (zh) * 2023-03-09 2023-06-02 太极计算机股份有限公司 基于主动学习和半监督学习的案情特征标注方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8161028B2 (en) * 2008-12-05 2012-04-17 International Business Machines Corporation System and method for adaptive categorization for use with dynamic taxonomies
US20150309987A1 (en) * 2014-04-29 2015-10-29 Google Inc. Classification of Offensive Words

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
David Berthelot et al..Mixmatch:A holistic approach to semi-supervised learning.《arXiv》.2019,第1-14页. *
Hongyi Zhang et al..mixup:Beyond empirical risk minimization.《arXiv》.2018,第1-13页. *
Vo Duy Thanh et al..Text classification based on semi-supervised learning.《 2013 International Conference on Soft Computing and Pattern Recognition (SoCPaR)》.2015,第232-236页. *
Xinghua Fan et al..A Semi-supervised Text Classification Method Based on Incremental EM Algorithm.《2010 WASE International Conference on Information Engineering》.2010,第211-214页. *
张倩 ; 刘怀亮 ; .一种基于半监督学习的短文本分类方法.现代图书情报技术.2013,(02),第30-35页. *
张倩 ; 刘怀亮 ; .利用图结构进行半监督学习的短文本分类研究.图书情报工作.2013,(21),第126-132页. *
胡云青 等.基于改进三体训练法的半监督专利文本分类方法.《浙江大学学报(工学版)》.2020,第331-339页. *

Also Published As

Publication number Publication date
CN111723209A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111723209B (zh) 半监督文本分类模型训练方法、文本分类方法、***、设备及介质
CN110457675B (zh) 预测模型训练方法、装置、存储介质及计算机设备
CN114595333B (zh) 一种用于舆情文本分析的半监督方法和装置
CN113449099B (zh) 文本分类方法和文本分类设备
CN112711660B (zh) 文本分类样本的构建方法和文本分类模型的训练方法
CN107688803B (zh) 字符识别中识别结果的校验方法和装置
CN113434683B (zh) 文本分类方法、装置、介质及电子设备
WO2020197666A1 (en) Sememe prediction method, computer device, and storage medium background
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113935314A (zh) 基于异构图网络的摘要抽取方法、装置、终端设备及介质
WO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
CN113934848A (zh) 一种数据分类方法、装置和电子设备
Zheng et al. Generative semantic hashing enhanced via Boltzmann machines
US11144724B2 (en) Clustering of words with multiple meanings based on generating vectors for each meaning
CN111178037A (zh) 重复缺陷报告识别方法、装置及电子设备
WO2023000725A1 (zh) 电力计量的命名实体识别方法、装置和计算机设备
CN115858776A (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
US20210342642A1 (en) Machine learning training dataset optimization
KR20230127509A (ko) 콘셉트 기반의 퓨샷 학습 방법 및 장치
CN114297385A (zh) 模型训练方法、文本分类方法、***、设备及介质
CN114625860A (zh) 一种合同条款的识别方法、装置、设备及介质
CN115309854A (zh) 对抗样本生成方法、装置和计算机设备
CN113988085A (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant