CN116049412B - 文本分类方法、模型训练方法、装置及电子设备 - Google Patents
文本分类方法、模型训练方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116049412B CN116049412B CN202310338447.9A CN202310338447A CN116049412B CN 116049412 B CN116049412 B CN 116049412B CN 202310338447 A CN202310338447 A CN 202310338447A CN 116049412 B CN116049412 B CN 116049412B
- Authority
- CN
- China
- Prior art keywords
- tag
- candidate
- text
- loss
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本分类方法、模型训练方法、装置及电子设备,该文本分类方法通过词嵌入模型确定候选标签的候选标签向量,然后通过聚类处理确定候选标签簇,以及确定候选标签簇的类别标签,然后将样本文本输入分类模型,先进行初步分类,在聚类得到的各个候选标签簇中确定预测标签簇,然后进行精确分类,在预测标签簇的各个候选标签中确定与样本文本对应的候选标签,通过分类模型的层次化分类来降低分类模型的复杂度,从而提高分类模型的运行效率,另外,在模型的训练过程中更新候选标签向量,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性,可以广泛应用于人工智能、云技术等技术领域。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本分类方法、模型训练方法、装置及电子设备。
背景技术
随着人工智能技术的发展,多标签文本分类已经在信息检索、情感分析、问答***等领域得到了广泛的应用。多标签文本分类主要用于对文本进行分类识别,从而将文本划归到一个或多个标签中。
相关技术中,通常采用分类模型的编码层确定文本的表征向量,然后利用分类层对表征向量进行映射处理,确定表征向量对应的标签类别,但是,在处理大规模的多标签分类任务时,由于分类的标签类别数量庞大,为了保证分类模型的预测能力,需要采用复杂度较高的分类模型,分类模型的运行效率较低。
发明内容
以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种文本分类方法、模型训练方法、装置及电子设备,能够降低分类模型的复杂度,从而提高分类模型的运行效率,还能够提高标签分类的准确性。
一方面,本申请实施例提供了一种文本分类方法,包括:
获取样本文本和多个候选标签,其中,所述样本文本携带有多个样本标签;
基于词嵌入模型确定各个所述候选标签的候选标签向量,根据所述候选标签向量对多个所述候选标签进行聚类处理得到多个候选标签簇,基于所述样本标签确定各个所述候选标签簇的类别标签;
将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,再从所述预测标签簇中确定与所述样本文本对应的所述候选标签;
根据所述预测标签簇的确定结果和所述类别标签确定第一损失,根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失;
根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练;
获取目标文本,将所述目标文本输入训练后的所述分类模型,基于训练后的所述分类模型确定所述目标文本的分类结果。
另一方面,本申请实施例还提供了一种模型训练方法,包括:
获取样本文本和多个候选标签,其中,所述样本文本携带有多个样本标签;
基于词嵌入模型确定各个所述候选标签的候选标签向量,根据所述候选标签向量对多个所述候选标签进行聚类处理得到多个候选标签簇,基于所述样本标签确定各个所述候选标签簇的类别标签;
将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,再从所述预测标签簇中确定与所述样本文本对应的所述候选标签;
根据所述预测标签簇的确定结果和所述类别标签确定第一损失,根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失;
根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练。
另一方面,本申请实施例还提供了一种文本分类装置,包括:
第一样本获取模块,用于获取样本文本和多个候选标签,其中,所述样本文本携带有多个样本标签;
第一标签聚类模块,用于基于词嵌入模型确定各个所述候选标签的候选标签向量,根据所述候选标签向量对多个所述候选标签进行聚类处理得到多个候选标签簇,基于所述样本标签确定各个所述候选标签簇的类别标签;
第一文本分类模块,用于将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,再从所述预测标签簇中确定与所述样本文本对应的所述候选标签;
第一损失计算模块,用于根据所述预测标签簇的确定结果和所述类别标签确定第一损失,根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失;
第一参数调整模块,用于根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练;
第二文本分类模块,用于获取目标文本,将所述目标文本输入训练后的所述分类模型,基于训练后的所述分类模型确定所述目标文本的分类结果。
进一步,所述分类模型包括编码层和分类层;上述第一文本分类模块具体用于:
将所述样本文本输入所述编码层,得到样本表征向量;
将所述样本表征向量输入所述分类层,确定各个所述候选标签簇的第一预测分数;
对各个所述第一预测分数分别进行归一化处理,得到各个所述候选标签簇的第一预测概率;
在所述第一预测概率大于等于预设的第一概率阈值的情况下,将所述第一预测概率对应的所述候选标签簇作为预测标签簇。
进一步,所述预测标签簇的确定结果包括各个所述候选标签簇的第一预测概率;上述第一文本分类模块具体用于:
根据各个所述候选标签簇的所述类别标签,确定各个所述候选标签簇的目标类别概率;
计算各个所述目标类别概率和对应的所述第一预测概率之间的交叉熵损失,得到多个类别损失;
将所有所述类别损失之和作为第一损失。
进一步,上述第一文本分类模块具体用于:
遍历所述预测标签簇中的各个所述候选标签,计算所述样本表征向量和所述候选标签的候选标签向量之间的相似度;
对所述相似度进行归一化处理,得到所述候选标签的第二预测概率;
在所述第二预测概率大于等于预设的第二概率阈值的情况下,将所述第二预测概率对应的所述候选标签作为与所述样本文本对应的所述候选标签。
进一步,与所述样本文本对应的所述候选标签的确定结果包括所述预测标签簇中的各个所述候选标签的第二预测概率;上述第一文本分类模块具体用于:
根据所述样本标签,确定所述预测标签簇中各个所述候选标签的目标标签概率;
计算各个所述目标标签概率和对应的所述第二预测概率之间的交叉熵损失,得到多个标签损失;
将所有所述标签损失之和作为第二损失。
进一步,上述第一文本分类模块具体用于:
对所述样本文本进行分词处理,得到文本分词序列,其中,所述文本分词序列包括多个词语;
为所述文本分词序列的首端添加起始标记,以及为文本分词序列的末端结束标记,得到标记分词序列;
对所述标记分词序列进行词嵌入处理,得到分词向量序列;
基于自注意力机制,利用所述编码层对所述分词向量序列进行特征提取,得到特征向量序列,其中,所述特征向量序列包括所述标记分词序列中各个词语的特征向量;
基于自注意力机制,对各个所述特征向量进行融合处理,得到样本表征向量。
进一步,上述第一文本分类模块具体用于:
根据预设的自注意力函数和所述特征向量,计算得到各个所述特征向量的注意力分数;
根据预设的归一化指数函数和所述注意力分数,计算得到各个所述特征向量的注意力权重;
基于所述注意力权重,对各个所述特征向量进行加权求和,得到样本表征向量。
进一步,上述第一参数调整模块具体用于:
将所述第一损失和所述第二损失进行加权,得到目标损失;
根据所述目标损失,对所述词嵌入模型、所述编码层和所述分类层进行联合训练。
进一步,上述第一标签聚类模块具体用于:
基于预设的分词算法,对所述候选标签进行分词处理,得到至少一个标签分词;
将所述标签分词输入词嵌入模型,得到所述标签分词的分词向量;
针对任一所述候选标签,对所述候选标签对应的所有所述分词向量进行平均处理,得到候选标签向量。
另一方面,本申请实施例还提供了一种模型训练装置,包括:
第二样本获取模块,用于获取样本文本和多个候选标签,其中,所述样本文本携带有多个样本标签;
第二标签聚类模块,用于基于词嵌入模型确定各个所述候选标签的候选标签向量,根据所述候选标签向量对多个所述候选标签进行聚类处理得到多个候选标签簇,基于所述样本标签确定各个所述候选标签簇的类别标签;
第三文本分类模块,用于将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,再从所述预测标签簇中确定与所述样本文本对应的所述候选标签;
第二损失计算模块,用于根据所述预测标签簇的确定结果和所述类别标签确定第一损失,根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失;
第二参数调整模块,用于根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练。
另一方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的文本分类方法,或者实现上述的模型训练方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行实现上述的文本分类方法,或者实现上述的模型训练方法。
另一方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的文本分类方法,或者实现上述的模型训练方法。
本申请实施例至少包括以下有益效果:通过词嵌入模型确定候选标签的候选标签向量,然后通过聚类处理确定候选标签簇,以及确定候选标签簇的类别标签,然后将样本文本输入分类模型,先进行初步分类,在聚类得到的各个候选标签簇中确定预测标签簇,然后进行精确分类,在预测标签簇的各个候选标签中确定与样本文本对应的候选标签,实现了分类模型的层次化分类,能够降低分类模型的复杂度,从而提高分类模型的运行效率,另外,通过第一损失和第二损失对词嵌入模型和分类模型进行联合训练,能够在模型的训练过程中更新候选标签向量,进而增强样本文本与处于尾部的候选标签之间的关联性,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性,后续可以基于训练后的分类模型确定目标文本的分类结果,得到目标文本的多标签分类结果,从而有效提高多标签分类的效率。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例提供的一种可选的实施环境的示意图;
图2为本申请实施例提供的文本分类方法的一种可选的流程示意图;
图3为本申请实施例提供的对候选标签进行聚类的一种可选的流程示意图;
图4为本申请实施例提供的确定候选标签簇的第一预测概率的一种可选的处理示意图;
图5为本申请实施例提供的对目标文本进行分类的一种可选的流程示意图;
图6为本申请实施例提供的模型训练方法的一种可选的流程示意图;
图7为本申请实施例提供的一种可选的词预测模型和分类模型训练架构示意图;
图8为本申请实施例提供的分类模型的一种可选的应用架构示意图;
图9为本申请实施例提供的文本分类装置的一种可选的结构示意图;
图10为本申请实施例提供的模型训练装置的一种可选的结构示意图;
图11为本申请实施例提供的终端的部分结构框图;
图12为本申请实施例提供的服务器的部分结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时,都会先获得目标对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。其中,目标对象可以是用户。此外,当本申请实施例需要获取目标对象属性信息时,会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意,在明确获得目标对象的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
多标签文本分类,是对文本进行分类识别,从而准确地将文本归入到一个或多个标签中。在多标签分类中,文本可以被分配到的类别数目没有约束,一个文本的标签数量不止一个,即一个文本可以对应有多个标签。
交叉熵(Cross Entropy),是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息,语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量,交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。
自注意力机制(Self-Attention),是注意力机制的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
多标签文本分类主要用于对文本进行分类识别,从而将文本划归到一个或多个标签中。相关技术中,通常采用分类模型的编码层确定文本的表征向量,然后利用分类层对表征向量进行映射处理,确定表征向量对应的标签类别,但是,在处理大规模的多标签分类任务时,由于分类的标签类别数量庞大,为了保证分类模型的预测能力,需要采用复杂度较高的分类模型,分类模型的运行效率较低。
上述方案具体存在以下缺陷:在分类的类别数量特别大的情况下,例如,分类的类别在上万或者几十万量级,分类效果一般很差,因为在分类规模特别大的时候,分类层的矩阵参数会非常大,大型矩阵的调参难度大,模型的训练效率低,而且,由于分类规模大,导致很多类别的样本数量较少,在分类任务中存在长尾分布问题,需要从头开始训练分类层,进一步增加了模型训练的难度。
基于此,本申请实施例提供了一种文本分类方法、模型训练方法、装置及电子设备,通过词嵌入模型确定候选标签的候选标签向量,然后通过聚类处理确定候选标签簇,以及确定候选标签簇的类别标签,然后将样本文本输入分类模型,先进行初步分类,在聚类得到的各个候选标签簇中确定预测标签簇,然后进行精确分类,在预测标签簇的各个候选标签中确定与样本文本对应的候选标签,实现了分类模型的层次化分类,能够降低分类模型的复杂度,从而提高分类模型的运行效率,另外,通过第一损失和第二损失对词嵌入模型和分类模型进行联合训练,能够在模型的训练过程中更新候选标签向量,进而增强样本文本与处于尾部的候选标签之间的关联性,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性,后续可以基于训练后的分类模型确定目标文本的分类结果,得到目标文本的多标签分类结果,从而有效提高多标签分类的效率。
参照图1,图1为本申请实施例提供的一种可选的实施环境的示意图,该实施环境包括终端101和服务器102,其中,终端101和服务器102之间通过通信网络连接。
示例性地,服务器102可以获取样本文本和多个候选标签,其中,样本文本携带有多个样本标签;基于词嵌入模型确定各个候选标签的候选标签向量,根据候选标签向量对多个候选标签进行聚类处理得到多个候选标签簇,可通过预设的聚类模型进行聚类处理,基于样本标签确定各个候选标签簇的类别标签;将样本文本输入分类模型,基于分类模型从多个候选标签簇中确定预测标签簇,再从预测标签簇中确定与样本文本对应的候选标签;根据预测标签簇的确定结果和类别标签确定第一损失,根据与样本文本对应的候选标签的确定结果和样本标签确定第二损失;根据第一损失和第二损失,对词嵌入模型和分类模型进行联合训练;获取目标文本,将目标文本输入训练后的分类模型,基于训练后的分类模型确定目标文本的分类结果,将目标文本的多标签分类结果发送至终端101。
服务器102通过词嵌入模型确定候选标签的候选标签向量,然后通过聚类处理确定候选标签簇,以及确定候选标签簇的类别标签,然后将样本文本输入分类模型,先进行初步分类,在聚类得到的各个候选标签簇中确定预测标签簇,然后进行精确分类,在预测标签簇的各个候选标签中确定与样本文本对应的候选标签,实现了分类模型的层次化分类,能够降低分类模型的复杂度,从而提高分类模型的运行效率,另外,通过第一损失和第二损失对词嵌入模型和分类模型进行联合训练,能够在模型的训练过程中更新候选标签向量,进而增强样本文本与处于尾部的候选标签之间的关联性,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性,后续可以基于训练后的分类模型确定目标文本的分类结果,得到目标文本的多标签分类结果,从而有效提高多标签分类的效率。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。另外,服务器102还可以是区块链网络中的一个节点服务器。
终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。
本申请实施例提供的方法可应用于各种技术领域,包括但不限于云技术、人工智能、自然语言处理等技术领域。
参照图2,图2为本申请实施例提供的文本分类方法的一种可选的流程示意图,该文本分类方法可以由服务器执行,或者也可以由终端执行,或者也可以由服务器配合终端执行,该文本分类方法包括但不限于以下步骤201至步骤206。
步骤201:获取样本文本和多个候选标签,其中,样本文本携带有多个样本标签。
其中,样本文本是指需要进行分类的文本,为了提升模型的训练效果,样本文本可以是长文本,也可以是短文本,例如,长文本和短文本通过文本长度阈值区分,将文本长度阈值设为10,长文本是指是文本长度超过长度阈值的文本,短文本是指文本长度不超过长度阈值的文本。样本文本可为不同语种类型的文本,在此不作出限制。可通过光学字符识别(Optical Character Recognition,OCR)技术,在样本图像中识别出样本文本,也可通过自动语音识别(Automatic Speech Recognition,ASR)技术,在样本语音中识别出样本文本。样本标签用于标识样本文本的类别,例如,样本文本T1为“足球赛事A1是最受欢迎的赛事之一,球队D1是历史上夺得冠军最多的队伍”,样本文本T1可携带有两个样本标签,分别为:足球和夺冠。样本文本对应的样本标签可以作为待训练的分类模型的监督信息。在处理大规模的多标签分类任务时,已有的标签库中存放在大量的候选标签,候选标签用于标识文本的类别,分类任务的目标是在标签库中确定与待分类文本匹配的一个或多个候选标签,值得注意的是,样本标签可为多个候选标签中的其中一个标签,当样本标签与标签库中已有的各个候选标签均不同时,为了提升分类模型的准确度,可将样本标签添加至标签库中。
具体地,服务器可从数据库中获取到样本文本和候选标签,服务器还可获取到终端上传的样本文本和候选标签,服务器还可获取到业务方发送的样本文本和候选标签,服务器还可从提供数据服务的服务方获取到样本文本和候选标签;可将获取到的样本文本存入样本池,模型训练时,在样本池中随机抽取样本文本。
步骤202:基于词嵌入模型确定各个候选标签的候选标签向量,根据候选标签向量对多个候选标签进行聚类处理得到多个候选标签簇,基于样本标签确定各个候选标签簇的类别标签。
其中,词嵌入模型用于完成候选标签的词嵌入(Word Embedding)过程,词嵌入是一种将文本中词转换成数字向量,词嵌入过程是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,将候选标签输入到词嵌入模型中,候选标签中各个词或词组被映射为实数域上的向量,然后可通过融合得到候选标签的候选标签向量,例如,候选标签向量为[-1,3,2,-0.5,2,……],为了使用标准机器学习算法来对候选标签进行分析,需要对候选标签进行词嵌入处理,将转换成数字形式的候选标签向量作为输入。候选标签簇包括一个或多个候选标签,在确定各个候选标签的候选标签向量后,可根据候选标签向量两两之间的相似度,对候选标签向量进行聚类,将相似度较高的两个候选标签向量对应的候选标签划分到同一个候选标签簇中,将相似度较低的两个候选标签向量对应的候选标签划分到不同的候选标签簇中。类别标签用于确定候选标签簇与样本文本之间的关联性,例如,通过聚类处理得到三个候选标签簇,分别为候选标签簇C1、候选标签簇C2和候选标签簇C3,其中,候选标签簇C1包括候选标签“足球、篮球、乒乓球”,候选标签簇C2包括候选标签“摇滚、民谣、爵士”,候选标签簇C3包括候选标签“猫、狗、羊”,样本文本T2为“足球赛事A2的主题曲选择了民谣与流行摇滚乐结合的音乐风格”,样本文本T2可携带有三个样本标签,分别为“足球、民谣和摇滚”,可通过匹配处理,将与任一样本标签匹配的候选标签簇的类别标签的数值置为1,将与样本标签均不匹配的候选标签簇的类别标签的数值置为0,由于候选标签簇C1包括候选标签“足球”,候选标签簇C2包括候选标签“摇滚、民谣”,候选标签簇C3没有相应的候选标签,因此,将候选标签簇C1和候选标签簇C2的类别标签的数值置为1,将候选标签簇C3的类别标签的数值置为0,候选标签簇C1和候选标签簇C2均与样本文本T2之间的关联性较高,候选标签簇C3与样本文本T2之间的关联性较低。
具体地,词嵌入模型可为Word2vec模型,Word2vec模型包括连续词袋(ContinuousBag-of-Word,CBOW)模型和Skip-Gram模型,也可通过现有的其他词嵌入方法确定候选标签向量,词嵌入方法包括但不限于:One-hot编码方法、GloVe方法。
在一种可能的实现方式中,基于词嵌入模型确定各个候选标签的候选标签向量,具体可以是基于预设的分词算法,对候选标签进行分词处理,得到至少一个标签分词;将标签分词输入词嵌入模型,得到标签分词的分词向量;针对任一候选标签,对候选标签对应的所有分词向量进行平均处理,得到候选标签向量,基于此,先进行分词处理得到至少一个标签分词,然后处理得到各个标签分词的分词向量,进而通过平均处理得到候选标签向量,能够增加候选标签向量的准确度,另外,在模型训练的每次迭代中,利用更新后的词嵌入模型进行词嵌入处理,能够生成新的候选标签向量,在多次迭代的训练过中,可以不断增强样本文本与处于尾部的候选标签之间的关联性,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性。
可选的,可采用不同语种类型的分词算法处理候选标签,在此不作出限定。例如,通过WordPiece算法对候选标签进行分词处理,WordPiece算法的主要实现方式为双字节编码BPE(Byte-Pair Encoding),WordPiece算法用于将候选标签拆分为标签分词,例如,将“loving”拆分为“lov”和“ing”,“lov”和“ing”均为子词,通过拆分单词,能够有效减少词表的数量,提高训练速度。
基于此,候选标签向量的计算公式具体可以表示为:
在一种可能的实现方式中,参照图3,图3为本申请实施例提供的对候选标签进行聚类的一种可选的流程示意图,已有的标签库中存放在大量的候选标签,候选标签用于标识文本的类别,分类任务的目标是在标签库中确定与待分类文本匹配的一个或多个候选标签,根据候选标签向量对多个候选标签进行聚类处理得到多个候选标签簇,将相似度较高的两个候选标签向量对应的候选标签划分到同一个候选标签簇中,将相似度较低的两个候选标签向量对应的候选标签划分到不同的候选标签簇中,候选标签簇的数量可预先设定,在模型的迭代训练过程中,候选标签簇的数量是固定的,例如将候选标签簇的数量设为K,其中,K为小于等于候选标签的总数量的正整数,如图所示,第一个候选标签簇包含的候选标签“排球、篮球、足球、羽毛球、乒乓球”等,第二个候选标签簇包含的候选标签“轿车、单车、轮船、火车、飞机”等,可见,与体育相关的候选标签被划分至第一个候选标签簇,在第一个候选标签簇中,任意两个候选标签对应的候选标签向量之间的相似度较高,与交通工具相关的候选标签被划分至第二个候选标签簇,在第二个候选标签簇中,任意两个候选标签对应的候选标签向量之间的相似度较高。
可选的,可通过K-means或其他聚类算法对候选标签进行聚类,下面以K-means聚类算法为例,对每个候选标签向量的聚类过程进行具体说明。
服务器或终端可以在所有候选标签中选择K个标签,将K个标签对应的候选标签向量作为中心向量,其中,K为小于等于候选标签的总数量的正整数,然后遍历所有候选标签,计算候选标签对应的候选标签向量与各个中心向量之间的相似度,将相似度计算结果作为候选标签与中心向量之间的相似度,然后将候选标签添加至与其相似度最大的中心向量所属的候选标签簇中,然后根据候选标签簇中所包含的候选标签,更新中心向量,直至候选标签簇中更新后的中心向量与更新前的中心向量相同时,得到作为聚类结果的候选标签簇。
其中,在聚类算法的任一轮次的迭代过程中,中心向量更新的更新过程如下:在本轮次的迭代过程中,将各个候选标签添加至对应的候选标签簇后,针对任一候选标签簇,计算该候选标签簇中所包含的所有候选标签对应的候选标签向量的均值,根据均值的计算结果重新定该候选标签簇对应的中心向量,实现了在本轮次迭代过程中更新中心向量。
服务器或终端可以预设候选标签簇的数量,即设置K的数值,候选标签簇的数量会影响聚类效果,K的数值过大时,导致聚类的结果过于稀疏,将相似度较高的两个候选标签划分到不同的候选标签簇,失去数据的之间的相关信息,K的数值过小时,导致聚类的结果过于稠密,将相似度较低的两个候选标签划分到同一个候选标签簇,无法有效区分候选标签向量,两个候选标签之间的相似度是指两个候选标签对应的候选标签向量之间的相似度,值得注意的是,可通过经验来设置K的数值,例如,K=50,也可以通过其他方式确定K的数值,在此不作出限定。
可选的,为了提升聚类效果,可以在候选标签中选择彼此距离尽可能远的K个标签对应的候选标签向量,作为初始的K个中心向量,两个候选标签之间的距离可以通过计算对应的两个候选标签向量之间的相似度来确定。具体地,在各个候选标签中随机选择一个标签对应的候选标签向量作为第一中心向量,然后在未被选择的候选标签中选择与中心向量/>距离最远的标签,将该标签对应的候选标签向量的作为第二中心向量/>,并计算第一中心向量/>和第二中心向量/>的第一平均值,然后在未被选择的候选标签中选择与第一平均值/>距离最远的标签,将该标签对应的候选标签向量作为第三中心向量/>,重复上述步骤,直至确定第K个中心向量。
服务器或终端可以通过计算两个候选标签向量之间的相似度来衡量对应的两个候选标签之间的距离,两个候选标签向量之间的相似度越大,两个候选标签之间的距离越小,两个候选标签向量之间的相似度越小,两个候选标签之间的距离越大,两个候选标签之间的距离包括但不限于:欧几里得距离(Eucledian Distance)、曼哈顿距离(ManhattanDistance)、明可夫斯基距离(Minkowski distance)、余弦相似度(Cosine Similarity)。
步骤203:将样本文本输入分类模型,基于分类模型从多个候选标签簇中确定预测标签簇,再从预测标签簇中确定与样本文本对应的候选标签。
其中,分类模型是指用于进行文本双层级分类的神经网络模型,双层级分类包括第一层级的初步分类和第二层级的精确分类,根据分类模型的初步分类结果,在聚类得到的所有候选标签簇中确定预测标签簇,具体可指在所有候选标签簇中确定出与样本文本关联性较高的候选标签簇,进而根据分类模型的精确分类结果,在预测标签簇的各个候选标签中确定与样本文本对应的候选标签,具体可指在预测标签簇的各个候选标签中确定出与样本文本关联性较低的候选标签,实现了分类模型的层次化分类,能够降低分类模型的复杂度,从而提高分类模型的运行效率。
在一种可能的实现方式中,分类模型包括编码层和分类层;将样本文本输入分类模型,基于分类模型从多个候选标签簇中确定预测标签簇,具体可以是将样本文本输入编码层,得到样本表征向量,将样本表征向量输入分类层,确定各个候选标签簇的第一预测分数,对各个第一预测分数分别进行归一化处理,得到各个候选标签簇的第一预测概率,在第一预测概率大于等于预设的第一概率阈值的情况下,将第一预测概率对应的候选标签簇作为预测标签簇,基于此,通过编码层对样本文本进行语义表征提取,得到样本表征向量,针对任一聚类得到的候选标签簇,分类层对样本文本进行初步的二分类,计算出候选标签簇的第一预测分数,进而确定第一预测概率,利用第一概率阈值划分第一预测概率,进而在候选标签簇中确定与样本文本关联的预测标签簇,通过基于聚类得到的候选标签簇进行初步分类,能够减少分类的类别,降低分类规模,从而提高分类模型的运行效率。其中,样本表征向量用于表征样本文本的语义信息。
在一种可能的实现方式中,参照图4,图4为本申请实施例提供的确定候选标签簇的第一预测概率的一种可选的流程示意图,通过候选标签簇的数量对分类层进行预处理,使得分类层能够输出每个候选标签簇的第一预测分数,将样本表征向量输入分类层后,在分类层的作用下,能够得到各个候选标签簇的第一预测分数,然后通过sigmoid函数,对各个第一预测分数分别进行归一化处理,得到各个候选标签簇的第一预测概率,进而确定出预测候选标签,例如,对于三个候选标签簇,第一候选标签簇S1的第一预测概率为0.3,第二候选标签簇S2的第一预测概率为0.8,第三候选标签簇S3的第一预测概率为0.2,能够确定预测标签簇的确定结果为[0.3,0.8,0.2],第一概率阈值为0.5,通过比对,能够确定第二候选标签簇S2为预测标签簇,第一候选标签簇S1和第三候选标签簇S3为非预测标签簇,实现了分类模型的初步分类,能够减少分类的类别,降低分类规模,从而提高分类模型的运行效率。
在一种可能的实现方式中,预测标签簇的确定结果包括各个候选标签簇的第一预测概率;根据预测标签簇的确定结果和类别标签确定第一损失,具体可以是根据各个候选标签簇的类别标签,确定各个候选标签簇的目标类别概率,计算各个目标类别概率和对应的第一预测概率之间的交叉熵损失,得到多个类别损失,将所有类别损失之和作为第一损失。
基于此,第一损失的计算公式具体可以表示为:
其中,为第一损失,/>是指第/>个候选标签簇的第一预测概率,/>是指第个候选标签簇的目标类别概率,/>是指候选标签簇的总数量,/>是指预测分数的向量,的每个向量元素对应一个候选标签簇的第一预测分数,/>是/>中的第/>个元素,是指归一化处理,/>是指样本表征向量,/>是分类层的参数矩阵,/>是分类层的超参数,在分类层的训练过程中,/>能够不断优化。针对任一候选标签簇,分类层对样本文本进行初步的二分类,目标类别概率由类别标签的数值确定,例如,当类别标签的数值为0时,目标类别概率可为0,当类别标签的数值为1时,目标类别概率可为1;目标类别概率为0时,表示候选标签簇和样本文本不关联,目标类别概率为1时,表示候选标签簇和样本文本相关联,当候选标签簇的第一预测概率越接近0,表示候选标签簇和样本文本之间的关联性越低,当候选标签簇的第一预测概率越接近1,表示候选标签簇和样本文本之间的关联性越高。对于任意一个候选标签簇,通过交叉熵来计算第一预测概率和目标类别概率之间的距离,可见,当第一预测概率和目标类别概率之间的距离越接近,交叉熵损失越小,从而使得第一预测概率更加准确,对于/>个候选标签簇,将/>个交叉熵损失之和作为第一损失,第一损失越小,/>个第一预测概率更加准确。可选的,为了提升分类层的拟合效果,可将目标类别概率设为0或1附近的数值,例如,可将目标类别概率设为0.1或0.9,目标类别概率为0.1时,表示候选标签簇和样本文本不关联,目标类别概率为0.9时,表示候选标签簇和样本文本相关联。
在一种可能的实现方式中,从预测标签簇中确定与样本文本对应的候选标签,具体可以是遍历预测标签簇中的各个候选标签,计算样本表征向量和候选标签的候选标签向量之间的相似度,对相似度进行归一化处理,得到候选标签的第二预测概率,在第二预测概率大于等于预设的第二概率阈值的情况下,将第二预测概率对应的候选标签作为与样本文本对应的候选标签,基于此,针对候选标签簇中的任一候选标签,分类层对样本文本进行精确的二分类,通过相似度度计算和归一化处理,计算出候选标签的第二预测概率,利用第二概率阈值划分第二预测概率,进而在候选标签中确定与样本文本关联的预测标签,通过基于候选标签簇中的候选标签进行精确分类,能够有效提升分类模型的准确性。
在一种可能的实现方式中,与样本文本对应的候选标签的确定结果包括预测标签簇中的各个候选标签的第二预测概率;根据与样本文本对应的候选标签的确定结果和样本标签确定第二损失,具体可以是根据样本标签,确定预测标签簇中各个候选标签的目标标签概率,计算各个目标标签概率和对应的第二预测概率之间的交叉熵损失,得到多个标签损失,将所有标签损失之和作为第二损失。
基于此,第二损失的计算公式具体可以表示为:
其中,为第二损失,/>是指第/>个候选标签的第二预测概率,/>是指第/>个候选标签的目标标签概率,/>是指第/>个候选标签的第二预测分数,/>是指候选标签簇中候选标签的总数量,/>是指归一化处理函数,/>是指样本表征向量,/>是指候选标签中第/>个候选标签的候选标签向量,/>是指相似度计算函数,/>是指样本表征向量和第/>个候选标签的候选标签向量之间的相似度。针对候选标签簇中的任一候选标签,分类层对样本文本进行精确的二分类,通过样本标签确定目标标签概率,例如,将与样本标签相同的候选标签的目标标签概率设为1,将与样本标签不同的候选标签的目标标签概率设为0,目标标签概率为0时,表示候选标签和样本文本不关联,目标标签概率为1时,表示候选标签和样本文本相关联,当候选标签的第二预测概率越接近0,表示候选标签和样本文本之间的关联性越低,当候选标签的第二预测概率越接近1,表示候选标签和样本文本之间的关联性越高。对于任意一个候选标签,通过交叉熵来计算第二预测概率和目标标签概率之间的距离,可见,当第二预测概率和目标标签概率之间的距离越接近,交叉熵损失越小,从而使得第二预测概率更加准确,对于/>个候选标签,将/>个交叉熵损失之和作为第二损失,第二损失越小,/>个第二预测概率更加准确。可选的,为了提升分类层的拟合效果,可将目标标签概率设为0或1附近的数值,例如,可将目标标签概率设为0.1或0.9,目标标签概率为0.1时,表示候选标签和样本文本不关联,目标标签概率为0.9时,表示候选标签和样本文本相关联。
在一种可能的实现方式中,将样本文本输入编码层,得到样本表征向量,具体可以是对样本文本进行分词处理,得到文本分词序列,其中,文本分词序列包括多个词语,为文本分词序列的首端添加起始标记,以及为文本分词序列的末端结束标记,得到标记分词序列,对标记分词序列进行词嵌入处理,得到分词向量序列,基于自注意力机制,利用编码层对分词向量序列进行特征提取,得到特征向量序列,其中,特征向量序列包括标记分词序列中各个词语的特征向量,基于自注意力机制,对各个特征向量进行融合处理,得到样本表征向量。
其中,文本分词序列是指由样本文本分词得到所有的词语所组成的序列,通过在文本分词序列中添加起始标记和结束标记,从而可以区分不同的样本文本,起始标记可以是第一预设字符,例如[CLS],结束标记可以是第二预设字符,例如[SEP],然后通过词嵌入处理,将标记分词序列中的各个词语转换成数字向量,得到分词向量序列,然后通过编码层的特征提取,得到特征向量序列,特征向量序列与分词向量序列等长,然后通过自注意力机制的融合处理,得到样本表征向量,样本表征向量能够准确表征样本文本的语义信息。
在一种可能的实现方式中,基于自注意力机制,对各个特征向量进行融合处理,得到样本表征向量,具体可以是根据预设的自注意力函数和特征向量,计算得到各个特征向量的注意力分数,根据预设的归一化指数函数和注意力分数,计算得到各个特征向量的注意力权重,基于注意力权重,对各个特征向量进行加权求和,得到样本表征向量。
基于此,样本表征向量的计算公式具体可以表示为:
其中,是样本表征向量,/>是第/>个词语的特征向量,/>是第/>个词语的特征向量的注意力权重,/>是第/>个词语的特征向量的注意力分数,/>和/>是可学习的参数矩阵,在分类层的训练过程中,/>和/>能够不断优化,/>是超参数,/>是双曲正切函数。/>是通过归一化指数Softmax函数计算得到,/>的范围在(0,1)内,对标记分词序列中各个词语进行打分,词语的重要性越大,词语的特征向量的注意力分数越大,即相应的注意力权重越大,与此相反,词语的重要性越小,词语的特征向量的注意力分数越小,即相应的注意力权重越小,通过对各个特征向量进行加权求和,得到样本表征向量,词语的重要性越大,样本表征向量与该词语的特征向量之间的距离越小,与此相反,词语的重要性越小,样本表征向量与该词语的特征向量之间的距离越大。
步骤204:根据预测标签簇的确定结果和类别标签确定第一损失,根据与样本文本对应的候选标签的确定结果和样本标签确定第二损失。
其中,第一损失的目标是实现预测标签簇的确定结果与类别标签之间的距离小,达到初步分类任务训练的效果,预测标签簇的确定结果是一个概率分布的向量,每个向量元素对应一个候选标签簇的第一预测概率,类别标签用于确定候选标签簇的目标类别概率,可将目标类别概率设为0或1,目标类别概率为0时,表示候选标签簇和样本文本不关联,目标类别概率为1时,表示候选标签簇和样本文本相关联,例如,对于四个候选标签簇,第一候选标签簇S1的第一预测概率为0.3,第二候选标签簇S2的第一预测概率为0.8,第三候选标签簇S3的第一预测概率为0.2,第四候选标签簇S4的第一预测概率为0.9,能够确定预测标签簇的确定结果为[0.3,0.8,0.2,0.9],第一候选标签簇S1的目标类别概率为0,第二候选标签簇S2的目标类别概率为1,第三候选标签簇S3的目标类别概率为0,第四候选标签簇S4的目标类别概率为1,将候选标签簇的目标类别概率和对应的第一预测概率的交叉熵损失作为该候选标签簇的损失,进而通过计算四个候选标签簇的损失之和,确定第一损失。
其中,第二损失的目标是实现候选标签的确定结果与样本标签之间的距离小,达到精确分类任务训练的效果,候选标签的确定结果是一个概率分布的向量,每个向量元素对应一个候选标签的第二预测概率,样本标签用于确定候选标签的目标标签概率,可将目标标签概率设为0或1,目标标签概率为0时,表示候选标签和样本文本不关联,目标标签概率为1时,表示候选标签和样本文本相关联,例如,一个预测标签簇中包括3个候选标签,第一候选标签L1的第二预测概率为0.85,第二候选标签L2的第二预测概率为0.3,第三候选标签L3的第二预测概率为0.8,能够确定候选标签的确定结果为[0.85,0.3,0.8],第一候选标签L1的目标标签概率为1,第二候选标签L2的目标标签概率为0,第三候选标签L3的目标标签概率为1,将候选标签的目标标签概率和对应的第二预测概率的交叉熵损失作为该候选标签的损失,进而通过计算三个候选标签的损失之和,确定第二损失。
步骤205:根据第一损失和第二损失,对词嵌入模型和分类模型进行联合训练。
在一种可能的实现方式中,根据第一损失和第二损失,对词嵌入模型和分类模型进行联合训练,具体可以是将第一损失和第二损失进行加权,得到目标损失;根据目标损失,对词嵌入模型、编码层和分类层进行联合训练,基于此,通过调节第一损失和第二损失之间的权重,能够调节初步分类任务和精确分类任务的平衡性,从而提升词嵌入模型、编码层和分类层的拟合效果。
具体地,服务器或终端计算出第一损失和第二损失的加权之和后,然后判断是否达到训练完成条件,当未达到训练完成条件,使用目标损失更新词嵌入模型和分类模型,得到更新后的词嵌入模型和分类模型,然后利用更新好的词嵌入模型和分类模型进行下一轮的训练,并返回获取样本文本迭代执行,直到达到训练完成条件时,得到训练后的词嵌入模型和分类模型,然后将训练后的词嵌入模型和分类模型进行部署并进行层次化的文本分类。
步骤206:获取目标文本,将目标文本输入训练后的分类模型,基于训练后的分类模型确定目标文本的分类结果。
其中,目标文本是指需要进行分类的文本,目标文本可以是长文本,也可以是短文本,例如,长文本和短文本通过文本长度阈值区分,将文本长度阈值设为10,长文本是指是文本长度超过长度阈值的文本,短文本是指文本长度不超过长度阈值的文本。目标文本可为不同语种类型的文本,在此不作出限制。可通过光学字符识别(Optical CharacterRecognition,OCR)技术,在目标图像中识别出目标文本,也可通过自动语音识别(Automatic Speech Recognition,ASR)技术,在目标语音中识别出目标文本。将目标文本输入至训练后的分类模型得到分类结果的原理,与基于分类模型得到前述的与样本文本对应的候选标签的原理相类似,在此不再赘述。
在一种可能的实现方式中,参照图5,图5为本申请实施例提供的对目标文本进行分类的一种可选的流程示意图,分类模型包括总编码层和融合候选标签向量的分类层,总编码层包括表征层、BERT编码层和自注意力层,总编码层用于对目标文本进行语义表征提取,得到目标表征向量,具体地,通过表征层对目标文本进行词嵌入处理,得到分词向量序列,通过BERT编码层对分词向量序列进行语义表征提取,得到目标文本中各个词语的特征向量,通过自注意力层的融合处理,将各个词语的特征向量融合为目标表征向量,然后通过分类层的层次化分类处理,确定与目标文本对应的候选标签。例如,目标文本T3为“球队D2在篮球赛事A3的决赛上以总比分4比2击败了球队D3,夺得冠军”,利用训练后的分类模型进行层次化分类处理,先进行初步分类,计算出各个预测标签簇的第一预测概率,例如,体育类的候选标签簇的第一预测概率为0.8,竞技类的候选标签簇的第一预测概率为0.9,并进行阈值比对,可将第一概率阈值设为0.5,能够确定体育类和竞技类的候选标签簇的第一预测概率大于等于第一概率阈值,将体育类和竞技类的候选标签簇作为预测标签簇,体育类的候选标签簇可包括“排球、篮球、足球、羽毛球、乒乓球”等候选标签,竞技类的候选标签簇可包括“胜负、退役、夺冠、停赛、晋级”等候选标签;然后进行精确分类,在体育类的候选标签簇中,计算各个候选标签的第二预测概率,例如,“排球”的第二预测概率为0.3,“篮球”的第二预测概率为0.9,“足球”的第二预测概率为0.2,“羽毛球”的第二预测概率为0.1,“乒乓球”的第二预测概率为0.1,并进行阈值比对,可将第二概率阈值设为0.5,能够确定“篮球”的第二预测概率大于等于第二概率阈值,在竞技类的候选标签簇中,计算各个候选标签的第二预测概率,例如,“胜负”的第二预测概率为0.4,“退役”的第二预测概率为0.1,“夺冠”的第二预测概率为0.9,“停赛”的第二预测概率为0.1,“晋级”的第二预测概率为0.3,并进行阈值比对,能够确定“夺冠”的第二预测概率大于等于第二概率阈值,因此,将“篮球、夺冠”作为目标文本T3对应的分类结果,分类模型的复杂度较低,能够有效提高多标签分类的效率。
其中,编码层可选用BRET、LSTM或GRU等编码模型。
另外,参照图6,图6为本申请实施例提供的模型训练方法的一种可选的流程示意图,该模型训练方法可以由服务器执行,或者也可以由终端执行,或者也可以由服务器配合终端执行,该模型训练方法包括但不限于以下步骤601至步骤605。
步骤601:获取样本文本和多个候选标签,其中,样本文本携带有多个样本标签;
步骤602:基于词嵌入模型确定各个候选标签的候选标签向量,根据候选标签向量对多个候选标签进行聚类处理得到多个候选标签簇,基于样本标签确定各个候选标签簇的类别标签;
步骤603:将样本文本输入分类模型,基于分类模型从多个候选标签簇中确定预测标签簇,再从预测标签簇中确定与样本文本对应的候选标签;
步骤604:根据预测标签簇的确定结果和类别标签确定第一损失,根据与样本文本对应的候选标签的确定结果和样本标签确定第二损失;
步骤605:根据第一损失和第二损失,对词嵌入模型和分类模型进行联合训练。
上述模型训练方法与文本分类方法基于相同的发明构思,因此该模型训练方法通过词嵌入模型确定候选标签的候选标签向量,然后通过聚类处理确定候选标签簇,以及确定候选标签簇的类别标签,然后将样本文本输入分类模型,先进行初步分类,在聚类得到的各个候选标签簇中确定预测标签簇,然后进行精确分类,在预测标签簇的各个候选标签中确定与样本文本对应的候选标签,实现了分类模型的层次化分类,能够降低分类模型的复杂度,从而提高分类模型的运行效率,另外,通过第一损失和第二损失对词嵌入模型和分类模型进行联合训练,能够在模型的训练过程中更新候选标签向量,进而增强样本文本与处于尾部的候选标签之间的关联性,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性,后续可以基于训练后的分类模型确定目标文本的分类结果,得到目标文本的多标签分类结果,从而有效提高多标签分类的效率。
上述步骤601至步骤605的详细原理可以参见前面对步骤201至步骤205的解释,在此不再赘述。
下面以实际例子详细说明本申请实施例中的模型训练方法的原理。
参照图7,图7为本申请实施例提供的一种可选的词预测模型和分类模型训练架构示意图,具体地:
以服务器作为执行主体为例,对于样本文本为新闻文章来说,示例性地,样本文本T4为“球队D4虽然失去球星P1,但在自由市场签下了球星P2和P3”,利用词嵌入模型,对标签库中的候选标签进行词嵌入处理,得到候选标签向量,进而通过候选标签向量对标签库中的候选标签进行聚类处理,能够确定多个候选标签簇,将样本文本T4输入分类模型,利用分类模型进行层次化分类处理,先进行初步分类,计算出各个预测标签簇的第一预测概率,例如,合作关系类的候选标签簇的第一预测概率为0.9,并进行阈值比对,可将第一概率阈值设为0.5,能够确定合作关系类的候选标签簇的第一预测概率大于等于第一概率阈值,将合作关系类的候选标签簇作为预测标签簇,合作关系类的候选标签簇可包括“加盟、合作、离职、退出、解散”等候选标签,然后进行精确分类,在合作关系类的候选标签簇中,计算各个候选标签的第二预测概率,例如,“加盟”的第二预测概率为0.9,“合作”的第二预测概率为0.3,“离职”的第二预测概率为0.2,“退出”的第二预测概率为0.8,“解散”的第二预测概率为0.1,并进行阈值比对,可将第二概率阈值设为0.5,能够确定“加盟”和“退出”的第二预测概率大于等于第二概率阈值,因此,将“加盟”和“退出”作为样本文本T4对应的候选标签。
然后计算各个目标类别概率和对应的第一预测概率之间的交叉熵损失,得到多个类别损失;将所有类别损失之和作为第一损失;并计算各个目标标签概率和对应的第二预测概率之间的交叉熵损失,得到多个标签损失;将所有标签损失之和作为第二损失。
最后,通过根据第一损失和第二损失,对词嵌入模型和分类模型进行联合训练,实现了分类模型的层次化分类,能够降低分类模型的复杂度,从而提高分类模型的运行效率,另外,能够在模型的训练过程中更新候选标签向量,进而增强样本文本与处于尾部的候选标签之间的关联性,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性,后续可以基于训练后的分类模型确定目标文本的分类结果,得到目标文本的多标签分类结果,从而有效提高多标签分类的效率。
分类模型训练完成后,可以应用在文本分类场景,具体地:
参照图8,图8为本申请实施例提供的分类模型的一种可选的应用架构示意图,目标文本为新闻文章,示例性地,目标文本T5为“选手P5上演了自己加盟球队D5的首秀,带领球队D5轻松战胜球队D6”,利用训练后的分类模型进行层次化分类处理,将目标文本T5输入分类模型,利用分类模型进行层次化分类处理,先进行初步分类,计算出各个预测标签簇的第一预测概率,例如,竞技类的候选标签簇的第一预测概率为0.9,合作关系类的候选标签簇的第一预测概率为0.8,并进行阈值比对,可将第一概率阈值设为0.5,能够确定竞技类和合作关系类的候选标签簇的第一预测概率大于等于第一概率阈值,将竞技类和合作关系类的候选标签簇作为预测标签簇,竞技类的候选标签簇可包括“胜负、退役、夺冠、停赛、晋级”等候选标签,合作关系类的候选标签簇可包括“加盟、合作、离职、退出、解散”等候选标签,然后进行精确分类,在竞技类的候选标签簇中,计算各个候选标签的第二预测概率,例如,“胜负”的第二预测概率为0.9,“退役”的第二预测概率为0.1,“夺冠”的第二预测概率为0.2,“停赛”的第二预测概率为0.1,“晋级”的第二预测概率为0.3,并进行阈值比对,可将第二概率阈值设为0.5,能够确定“胜负”的第二预测概率大于等于第二概率阈值,在合作关系类的候选标签簇中,计算各个候选标签的第二预测概率,例如,“加盟”的第二预测概率为0.9,“合作”的第二预测概率为0.3,“离职”的第二预测概率为0.1,“退出”的第二预测概率为0.1,“解散”的第二预测概率为0.1,并进行阈值比对,将第二概率阈值设为0.5,并进行阈值比对,能够确定“加盟”的第二预测概率大于等于第二概率阈值,因此,将“胜负”和“加盟”作为目标文本T5对应的分类结果。
可见,分类模型的层次化分类,能够降低分类模型的复杂度,从而提高分类模型的运行效率,基于训练后的分类模型得到与样本文本对应的候选标签,从而有效提高多标签分类的效率。
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时间执行完成,而是可以在不同的时间执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
参照图9,图9为本申请实施例提供的文本分类装置的一种可选的结构示意图,该文本分类装置900包括:
第一样本获取模块901,用于获取样本文本和多个候选标签,其中,样本文本携带有多个样本标签;
第一标签聚类模块902,用于基于词嵌入模型确定各个候选标签的候选标签向量,根据候选标签向量对多个候选标签进行聚类处理得到多个候选标签簇,基于样本标签确定各个候选标签簇的类别标签;
第一文本分类模块903,用于将样本文本输入分类模型,基于分类模型从多个候选标签簇中确定预测标签簇,再从预测标签簇中确定与样本文本对应的候选标签;
第一损失计算模块904,用于根据预测标签簇的确定结果和类别标签确定第一损失,根据与样本文本对应的候选标签的确定结果和样本标签确定第二损失;
第一参数调整模块905,用于根据第一损失和第二损失,对词嵌入模型和分类模型进行联合训练;
第二文本分类模块906,用于获取目标文本,将目标文本输入训练后的分类模型,基于训练后的分类模型确定目标文本的分类结果。
进一步,分类模型包括编码层和分类层;上述第一文本分类模块903具体用于:
将样本文本输入编码层,得到样本表征向量;
将样本表征向量输入分类层,确定各个候选标签簇的第一预测分数;
对各个第一预测分数分别进行归一化处理,得到各个候选标签簇的第一预测概率;
在第一预测概率大于等于预设的第一概率阈值的情况下,将第一预测概率对应的候选标签簇作为预测标签簇。
进一步,预测标签簇的确定结果包括各个候选标签簇的第一预测概率;上述第一文本分类模块903具体用于:
根据各个候选标签簇的类别标签,确定各个候选标签簇的目标类别概率;
计算各个目标类别概率和对应的第一预测概率之间的交叉熵损失,得到多个类别损失;
将所有类别损失之和作为第一损失。
进一步,上述第一文本分类模块903具体用于:
遍历预测标签簇中的各个候选标签,计算样本表征向量和候选标签的候选标签向量之间的相似度;
对相似度进行归一化处理,得到候选标签的第二预测概率;
在第二预测概率大于等于预设的第二概率阈值的情况下,将第二预测概率对应的候选标签作为与样本文本对应的候选标签。
进一步,与样本文本对应的候选标签的确定结果包括预测标签簇中的各个候选标签的第二预测概率;上述第一文本分类模块903具体用于:
根据样本标签,确定预测标签簇中各个候选标签的目标标签概率;
计算各个目标标签概率和对应的第二预测概率之间的交叉熵损失,得到多个标签损失;
将所有标签损失之和作为第二损失。
进一步,上述第一文本分类模块903具体用于:
对样本文本进行分词处理,得到文本分词序列,其中,文本分词序列包括多个词语;
为文本分词序列的首端添加起始标记,以及为文本分词序列的末端结束标记,得到标记分词序列;
对标记分词序列进行词嵌入处理,得到分词向量序列;
基于自注意力机制,利用编码层对分词向量序列进行特征提取,得到特征向量序列,其中,特征向量序列包括标记分词序列中各个词语的特征向量;
基于自注意力机制,对各个特征向量进行融合处理,得到样本表征向量。
进一步,上述第一文本分类模块903具体用于:
根据预设的自注意力函数和特征向量,计算得到各个特征向量的注意力分数;
根据预设的归一化指数函数和注意力分数,计算得到各个特征向量的注意力权重;
基于注意力权重,对各个特征向量进行加权求和,得到样本表征向量。
进一步,上述第一参数调整模块905具体用于:
将第一损失和第二损失进行加权,得到目标损失;
根据目标损失,对词嵌入模型、编码层和分类层进行联合训练。
进一步,上述第一标签聚类模块902具体用于:
基于预设的分词算法,对候选标签进行分词处理,得到至少一个标签分词;
将标签分词输入词嵌入模型,得到标签分词的分词向量;
针对任一候选标签,对候选标签对应的所有分词向量进行平均处理,得到候选标签向量。
上述文本分类装置900与文本分类方法基于相同的发明构思,通过词嵌入模型确定候选标签的候选标签向量,然后通过聚类处理确定候选标签簇,以及确定候选标签簇的类别标签,然后将样本文本输入分类模型,先进行初步分类,在聚类得到的各个候选标签簇中确定预测标签簇,然后进行精确分类,在预测标签簇的各个候选标签中确定与样本文本对应的候选标签,实现了分类模型的层次化分类,能够降低分类模型的复杂度,从而提高分类模型的运行效率,另外,通过第一损失和第二损失对词嵌入模型和分类模型进行联合训练,能够在模型的训练过程中更新候选标签向量,进而增强样本文本与处于尾部的候选标签之间的关联性,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性,后续可以基于训练后的分类模型确定目标文本的分类结果,得到目标文本的多标签分类结果,从而有效提高多标签分类的效率。
参照图10,图10为本申请实施例提供的模型训练装置的一种可选的结构示意图,该模型训练装置1000包括:
第二样本获取模块1001,用于获取样本文本和多个候选标签,其中,样本文本携带有多个样本标签;
第二标签聚类模块1002,用于基于词嵌入模型确定各个候选标签的候选标签向量,根据候选标签向量对多个候选标签进行聚类处理得到多个候选标签簇,基于样本标签确定各个候选标签簇的类别标签;
第三文本分类模块1003,用于将样本文本输入分类模型,基于分类模型从多个候选标签簇中确定预测标签簇,再从预测标签簇中确定与样本文本对应的候选标签;
第二损失计算模块1004,用于根据预测标签簇的确定结果和类别标签确定第一损失,根据与样本文本对应的候选标签的确定结果和样本标签确定第二损失;
第二参数调整模块1005,用于根据第一损失和第二损失,对词嵌入模型和分类模型进行联合训练。
上述模型训练装置1000与模型训练方法基于相同的发明构思,通过词嵌入模型确定候选标签的候选标签向量,然后通过聚类处理确定候选标签簇,以及确定候选标签簇的类别标签,然后将样本文本输入分类模型,先进行初步分类,在聚类得到的各个候选标签簇中确定预测标签簇,然后进行精确分类,在预测标签簇的各个候选标签中确定与样本文本对应的候选标签,实现了分类模型的层次化分类,能够降低分类模型的复杂度,从而提高分类模型的运行效率,另外,通过第一损失和第二损失对词嵌入模型和分类模型进行联合训练,能够在模型的训练过程中更新候选标签向量,进而增强样本文本与处于尾部的候选标签之间的关联性,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性,后续可以基于训练后的分类模型确定目标文本的分类结果,得到目标文本的多标签分类结果,从而有效提高多标签分类的效率。
本申请实施例提供的用于执行上述文本分类方法或者模型训练方法的电子设备可以是终端,参照图11,图11为本申请实施例提供的终端的部分结构框图,该终端包括:射频(Radio Frequency,简称RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,简称WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行终端的各种功能应用以及数据处理。
输入单元1130可用于接收输入的数字或字符信息,以及产生与终端的设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触摸面板1131以及其他输入装置1132。
显示单元1140可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元1140可包括显示面板1141。
音频电路1160、扬声器1161,传声器1162可提供音频接口。
在本实施例中,该终端所包括的处理器1180可以执行前面实施例的文本分类方法或者模型训练方法。
本申请实施例提供的用于执行上述文本分类方法或者模型训练方法的电子设备也可以是服务器,参照图12,图12为本申请实施例提供的服务器的部分结构框图,服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(Central Processing Units,简称CPU)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储装置)。其中,存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器1200中的一系列指令操作。更进一步地,中央处理器1222可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。
服务器1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作***1241,例如Windows ServerTM,Mac OS XTM,UnixTM ,LinuxTM,FreeBSDTM等等。
服务器1200中的处理器可以用于执行文本分类方法或者模型训练方法。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述各个实施例的文本分类方法或者模型训练方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的文本分类方法或者模型训练方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便描述本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
应了解,在本申请实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
还应了解,本申请实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本申请权利要求所限定的范围内。
Claims (13)
1.一种文本分类方法,其特征在于,包括:
获取样本文本和多个候选标签,其中,所述样本文本携带有多个样本标签;
基于词嵌入模型确定各个所述候选标签的候选标签向量,根据所述候选标签向量对多个所述候选标签进行聚类处理得到多个候选标签簇,基于所述样本标签确定各个所述候选标签簇的类别标签;
将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,再从所述预测标签簇中确定与所述样本文本对应的所述候选标签;
根据所述预测标签簇的确定结果和所述类别标签确定第一损失,根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失;
根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练,在训练过程中更新候选标签向量;
获取目标文本,将所述目标文本输入训练后的所述分类模型,基于训练后的所述分类模型确定所述目标文本的分类结果;
其中,所述基于词嵌入模型确定各个所述候选标签的候选标签向量,包括:
基于预设的分词算法,对所述候选标签进行分词处理,得到至少一个标签分词;
将所述标签分词输入词嵌入模型,得到所述标签分词的分词向量;
针对任一所述候选标签,对所述候选标签对应的所有所述分词向量进行平均处理,得到候选标签向量;
所述根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练,在训练过程中更新候选标签向量,包括:
将第一损失和第二损失进行加权,得到目标损失,根据目标损失,对所述词嵌入模型和所述分类模型进行联合训练。
2.根据权利要求1所述的文本分类方法,其特征在于,所述分类模型包括编码层和分类层;所述将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,包括:
将所述样本文本输入所述编码层,得到样本表征向量;
将所述样本表征向量输入所述分类层,确定各个所述候选标签簇的第一预测分数;
对各个所述第一预测分数分别进行归一化处理,得到各个所述候选标签簇的第一预测概率;
在所述第一预测概率大于等于预设的第一概率阈值的情况下,将所述第一预测概率对应的所述候选标签簇作为预测标签簇。
3.根据权利要求2所述的文本分类方法,其特征在于,所述预测标签簇的确定结果包括各个所述候选标签簇的第一预测概率;所述根据所述预测标签簇的确定结果和所述类别标签确定第一损失,包括:
根据各个所述候选标签簇的所述类别标签,确定各个所述候选标签簇的目标类别概率;
计算各个所述目标类别概率和对应的所述第一预测概率之间的交叉熵损失,得到多个类别损失;
将所有所述类别损失之和作为第一损失。
4.根据权利要求2所述的文本分类方法,其特征在于,所述从所述预测标签簇中确定与所述样本文本对应的所述候选标签,包括:
遍历所述预测标签簇中的各个所述候选标签,计算所述样本表征向量和所述候选标签的候选标签向量之间的相似度;
对所述相似度进行归一化处理,得到所述候选标签的第二预测概率;
在所述第二预测概率大于等于预设的第二概率阈值的情况下,将所述第二预测概率对应的所述候选标签作为与所述样本文本对应的所述候选标签。
5.根据权利要求4所述的文本分类方法,其特征在于,与所述样本文本对应的所述候选标签的确定结果包括所述预测标签簇中的各个所述候选标签的第二预测概率;所述根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失,包括:
根据所述样本标签,确定所述预测标签簇中各个所述候选标签的目标标签概率;
计算各个所述目标标签概率和对应的所述第二预测概率之间的交叉熵损失,得到多个标签损失;
将所有所述标签损失之和作为第二损失。
6.根据权利要求2所述的文本分类方法,其特征在于,所述将所述样本文本输入所述编码层,得到样本表征向量,包括:
对所述样本文本进行分词处理,得到文本分词序列,其中,所述文本分词序列包括多个词语;
为所述文本分词序列的首端添加起始标记,以及为文本分词序列的末端结束标记,得到标记分词序列;
对所述标记分词序列进行词嵌入处理,得到分词向量序列;
基于自注意力机制,利用所述编码层对所述分词向量序列进行特征提取,得到特征向量序列,其中,所述特征向量序列包括所述标记分词序列中各个词语的特征向量;
基于自注意力机制,对各个所述特征向量进行融合处理,得到样本表征向量。
7.根据权利要求6所述的文本分类方法,其特征在于,所述基于自注意力机制,对各个所述特征向量进行融合处理,得到样本表征向量,包括:
根据预设的自注意力函数和所述特征向量,计算得到各个所述特征向量的注意力分数;
根据预设的归一化指数函数和所述注意力分数,计算得到各个所述特征向量的注意力权重;
基于所述注意力权重,对各个所述特征向量进行加权求和,得到样本表征向量。
8.根据权利要求2所述的文本分类方法,其特征在于,所述根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练,包括:
将所述第一损失和所述第二损失进行加权,得到目标损失;
根据所述目标损失,对所述词嵌入模型、所述编码层和所述分类层进行联合训练。
9.一种模型训练方法,其特征在于,包括:
获取样本文本和多个候选标签,其中,所述样本文本携带有多个样本标签;
基于词嵌入模型确定各个所述候选标签的候选标签向量,根据所述候选标签向量对多个所述候选标签进行聚类处理得到多个候选标签簇,基于所述样本标签确定各个所述候选标签簇的类别标签;
将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,再从所述预测标签簇中确定与所述样本文本对应的所述候选标签;
根据所述预测标签簇的确定结果和所述类别标签确定第一损失,根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失;
根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练,在训练过程中更新候选标签向量;
其中,所述基于词嵌入模型确定各个所述候选标签的候选标签向量,包括:
基于预设的分词算法,对所述候选标签进行分词处理,得到至少一个标签分词;
将所述标签分词输入词嵌入模型,得到所述标签分词的分词向量;
针对任一所述候选标签,对所述候选标签对应的所有所述分词向量进行平均处理,得到候选标签向量;
所述根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练,在训练过程中更新候选标签向量,包括:
将第一损失和第二损失进行加权,得到目标损失,根据目标损失,对所述词嵌入模型和所述分类模型进行联合训练。
10.一种文本分类装置,其特征在于,包括:
第一样本获取模块,用于获取样本文本和多个候选标签,其中,所述样本文本携带有多个样本标签;
第一标签聚类模块,用于基于词嵌入模型确定各个所述候选标签的候选标签向量,根据所述候选标签向量对多个所述候选标签进行聚类处理得到多个候选标签簇,基于所述样本标签确定各个所述候选标签簇的类别标签;其中,所述基于词嵌入模型确定各个所述候选标签的候选标签向量,包括:基于预设的分词算法,对所述候选标签进行分词处理,得到至少一个标签分词;将所述标签分词输入词嵌入模型,得到所述标签分词的分词向量;针对任一所述候选标签,对所述候选标签对应的所有所述分词向量进行平均处理,得到候选标签向量;
第一文本分类模块,用于将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,再从所述预测标签簇中确定与所述样本文本对应的所述候选标签;
第一损失计算模块,用于根据所述预测标签簇的确定结果和所述类别标签确定第一损失,根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失;
第一参数调整模块,用于根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练,在训练过程中更新候选标签向量;其中,所述根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练,在训练过程中更新候选标签向量,包括:将第一损失和第二损失进行加权,得到目标损失,根据目标损失,对所述词嵌入模型和所述分类模型进行联合训练;
第二文本分类模块,用于获取目标文本,将所述目标文本输入训练后的所述分类模型,基于训练后的所述分类模型确定所述目标文本的分类结果。
11.一种模型训练装置,其特征在于,包括:
第二样本获取模块,用于获取样本文本和多个候选标签,其中,所述样本文本携带有多个样本标签;
第二标签聚类模块,用于基于词嵌入模型确定各个所述候选标签的候选标签向量,根据所述候选标签向量对多个所述候选标签进行聚类处理得到多个候选标签簇,基于所述样本标签确定各个所述候选标签簇的类别标签;其中,所述基于词嵌入模型确定各个所述候选标签的候选标签向量,包括:基于预设的分词算法,对所述候选标签进行分词处理,得到至少一个标签分词;将所述标签分词输入词嵌入模型,得到所述标签分词的分词向量;针对任一所述候选标签,对所述候选标签对应的所有所述分词向量进行平均处理,得到候选标签向量;
第三文本分类模块,用于将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,再从所述预测标签簇中确定与所述样本文本对应的所述候选标签;
第二损失计算模块,用于根据所述预测标签簇的确定结果和所述类别标签确定第一损失,根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失;
第二参数调整模块,用于根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练,在训练过程中更新候选标签向量;其中,所述根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练,在训练过程中更新候选标签向量,包括:将第一损失和第二损失进行加权,得到目标损失,根据目标损失,对所述词嵌入模型和所述分类模型进行联合训练。
12.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项所述的文本分类方法,或者实现权利要求9所述的模型训练方法。
13.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任意一项所述的文本分类方法,或者实现权利要求9所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310338447.9A CN116049412B (zh) | 2023-03-31 | 2023-03-31 | 文本分类方法、模型训练方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310338447.9A CN116049412B (zh) | 2023-03-31 | 2023-03-31 | 文本分类方法、模型训练方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049412A CN116049412A (zh) | 2023-05-02 |
CN116049412B true CN116049412B (zh) | 2023-07-14 |
Family
ID=86122169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310338447.9A Active CN116049412B (zh) | 2023-03-31 | 2023-03-31 | 文本分类方法、模型训练方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049412B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116542250B (zh) * | 2023-06-29 | 2024-04-19 | 杭州同花顺数据开发有限公司 | 一种信息抽取模型获取方法和*** |
CN116776887B (zh) * | 2023-08-18 | 2023-10-31 | 昆明理工大学 | 一种基于样本相似性计算的负采样远程监督实体识别方法 |
CN116955630B (zh) * | 2023-09-18 | 2024-01-26 | 北京中关村科金技术有限公司 | 文本分类方法、装置、模型、设备和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765358A (zh) * | 2021-02-23 | 2021-05-07 | 西安交通大学 | 一种基于噪声标签学习的纳税人行业分类方法 |
CN113849653A (zh) * | 2021-10-14 | 2021-12-28 | 鼎富智能科技有限公司 | 一种文本分类方法及装置 |
CN114358188A (zh) * | 2022-01-05 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 特征提取模型处理、样本检索方法、装置和计算机设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7087851B2 (ja) * | 2018-09-06 | 2022-06-21 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
CN113435308B (zh) * | 2021-06-24 | 2023-05-30 | 平安国际智慧城市科技股份有限公司 | 文本多标签分类方法、装置、设备及存储介质 |
CN113918714A (zh) * | 2021-09-29 | 2022-01-11 | 北京百度网讯科技有限公司 | 一种分类模型训练方法、聚类方法及电子设备 |
CN113688951B (zh) * | 2021-10-25 | 2022-01-21 | 腾讯科技(深圳)有限公司 | 视频数据处理方法以及装置 |
CN114528844A (zh) * | 2022-01-14 | 2022-05-24 | 中国平安人寿保险股份有限公司 | 意图识别方法、装置、计算机设备及存储介质 |
CN114741517A (zh) * | 2022-05-09 | 2022-07-12 | 北京百度网讯科技有限公司 | 文本分类模型的训练及文本分类方法、装置、设备和介质 |
-
2023
- 2023-03-31 CN CN202310338447.9A patent/CN116049412B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765358A (zh) * | 2021-02-23 | 2021-05-07 | 西安交通大学 | 一种基于噪声标签学习的纳税人行业分类方法 |
CN113849653A (zh) * | 2021-10-14 | 2021-12-28 | 鼎富智能科技有限公司 | 一种文本分类方法及装置 |
CN114358188A (zh) * | 2022-01-05 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 特征提取模型处理、样本检索方法、装置和计算机设备 |
Non-Patent Citations (2)
Title |
---|
Data Labeling method based on Rough Entropy for categorical data clustering;G. Sreenivasulu et al.;《2014 International Conference on Electronics, Communication and Computational Engineering》;1-5 * |
一种改进的RAKEL多标签分类算法;金永贤 等;《浙江师范大学学报(自然科学版)》;第39卷(第4期);386-391 * |
Also Published As
Publication number | Publication date |
---|---|
CN116049412A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116049412B (zh) | 文本分类方法、模型训练方法、装置及电子设备 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
WO2019144892A1 (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN109948735B (zh) | 一种多标签分类方法、***、装置及存储介质 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析*** | |
CN108959474B (zh) | 实体关系提取方法 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
US20230281246A1 (en) | Video retrieval method and apparatus based on key frame detection | |
CN113688951A (zh) | 视频数据处理方法以及装置 | |
CN111310918B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN112966072A (zh) | 案件的预判方法、装置、电子装置和存储介质 | |
CN116955730A (zh) | 一种特征提取模型的训练方法、内容推荐的方法及装置 | |
CN111898704A (zh) | 对内容样本进行聚类的方法和装置 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN115187910A (zh) | 视频分类模型训练方法、装置、电子设备及存储介质 | |
CN114239805A (zh) | 跨模态检索神经网络及训练方法、装置、电子设备、介质 | |
CN112148994B (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 | |
CN113657473A (zh) | 一种基于迁移学习的Web服务分类方法 | |
CN113761188A (zh) | 文本标签确定方法、装置、计算机设备和存储介质 | |
CN115129902B (zh) | 媒体数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40089869 Country of ref document: HK |