CN114357151A - 文本类目识别模型的处理方法、装置、设备及存储介质 - Google Patents
文本类目识别模型的处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114357151A CN114357151A CN202110912638.2A CN202110912638A CN114357151A CN 114357151 A CN114357151 A CN 114357151A CN 202110912638 A CN202110912638 A CN 202110912638A CN 114357151 A CN114357151 A CN 114357151A
- Authority
- CN
- China
- Prior art keywords
- category
- text
- sub
- main
- prediction result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本类目识别模型的处理方法、装置、设备及存储介质,还涉及一种文本的类目识别方法、装置、设备及存储介质,涉及人工智能技术领域的自然语言处理技术,该文本类目识别模型的处理方法包括:通过文本类目识别模型中的主类目识别网络,获得样本文本对应的主类目预测结果,通过文本类目识别模型中的子类目识别网络,基于主类目预测结果获得样本文本对应的子类目预测结果,再基于样本文本对应的主类目标签与主类目预测结果,以及样本文本对应的从属于主类目标签的子类目标签与子类目预测结果构建目标损失,根据目标损失训练文本类目识别模型。采用本方法能够提高文本多层级分类的准确度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本类目识别模型的处理方法、装置、设备及存储介质,还涉及一种文本的类目识别方法、装置、设备及存储介质。
背景技术
文本分类,作为自然语言处理(Natural Language Processing,NLP)领域中的经典问题,目前应用十分广泛。通常来讲,文本分类是指识别出文本所属的类目的过程,也就是将文本分到某个或某几个类目中,被分类的对象可以是短文本,例如句子、标题、评论等等,也可以是长文本,如文章等。
在一些场景中,需要将文本分类至某个主类目以及从属于该主类目的某个个子类目,例如,识别出文本对应的主类目为“应用程序”、子类目为“小程序”。目前,通常采用的方式是,将该文本分类任务分割成与主类目对应的几个基础的多分类任务,直接根据输入的文本预测子类目,发明人发现,这种方式的预测结果不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本多层级分类准确性的文本类目识别模型的处理方法、装置、设备及存储介质,以及文本的类目识别方法、装置、设备及存储介质。
一种文本类目识别模型的处理方法,所述方法包括:
获取样本文本及所述样本文本对应的标签数据,所述标签数据包括所述样本文本对应的主类目标签以及从属于所述主类目标签的子类目标签;
通过文本类目识别模型中的主类目识别网络,对所述样本文本进行类目识别,获得所述样本文本对应的主类目预测结果;
通过所述文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的子类目预测结果;
基于所述样本文本对应的主类目标签与所述主类目预测结果、所述样本文本对应的子类目标签与所述子类目预测结果,构建目标损失;
根据所述目标损失更新所述文本类目识别模型的模型参数后,返回所述获取样本文本及所述样本文本对应的标签数据的步骤继续训练,直至训练结束时,获得用于识别文本类目的文本类目识别模型。
一种文本类目识别模型的处理装置,所述装置包括:
获取模块,用于获取样本文本及所述样本文本对应的标签数据,所述标签数据包括所述样本文本对应的主类目标签以及从属于所述主类目标签的子类目标签;
主类目识别模块,用于通过文本类目识别模型中的主类目识别网络,对所述样本文本进行类目识别,获得所述样本文本对应的主类目预测结果;
子类目识别模块,用于通过所述文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的子类目预测结果;
损失构建模块,用于基于所述样本文本对应的主类目标签与所述主类目预测结果、所述样本文本对应的子类目标签与所述子类目预测结果,构建目标损失;
训练模块,用于根据所述目标损失更新所述文本类目识别模型的模型参数后,返回所述获取样本文本及所述样本文本对应的标签数据的步骤继续训练,直至训练结束时,获得用于识别文本类目的文本类目识别模型。
在一个实施例中,所述主类目识别模块还用于:通过所述主类目识别网络的语义编码层,对所述样本文本进行语义编码,获得语义编码向量;通过所述主类目识别网络的归一化层,将所述语义编码向量转换为对应预定主类目的预测概率,作为所述主类目预测结果。
在一个实施例中,所述子类目识别模块还用于:通过所述子类目识别网络的信息融合层,基于所述主类目预测结果与所述样本文本对应的语义编码向量,确定所述样本文本对应的子类目语义向量;通过所述子类目识别网络的归一化层,将所述子类目语义向量转换为对应预定子类目的预测概率,作为所述子类目预测结果。
在一个实施例中,所述子类目识别模块还用于:根据所述主类目预测结果确定候选主类目;融合各所述候选主类目对应的语义表征向量,得到主类目语义向量;将所述主类目语义向量与所述样本文本对应的语义编码向量拼接后,得到所述样本文本对应的子类目语义向量。
在一个实施例中,所述子类目识别模块还用于:确定各所述候选主类目对应的语义表征向量;根据所述主类目预测结果,确定各所述候选主类目对应的预测概率;按各所述候选主类目对应的预测概率,对各所述候选主类目对应的语义表征向量加权求和,得到所述主类目语义向量。
在一个实施例中,所述子类目识别模块还用于:通过所述子类目识别网络的归一化层,将所述样本文本对应的语义编码向量转换为对应预定子类目的预测概率;通过所述子类目识别网络的信息修正层,根据所述主类目预测结果中各预定主类目对应的预测概率,对从属于相应预定主类目的预定子类目所对应的预测概率进行调整,将调整后的对应的预定子类目的预测概率,作为所述子类目预测结果。
在一个实施例中,所述损失构建模块还用于:基于所述样本文本对应的主类目标签与所述主类目预测结果,构建主类目分类损失,基于所述样本文本对应的子类目标签与所述子类目预测结果,构建子类目分类损失;将所述主类目分类损失与所述子类目分类损失融合后,得到目标损失。
在一个实施例中,所述损失构建模块还用于:基于所述样本文本对应的主类目标签与所述主类目预测结果,构建主类目分类损失,基于所述样本文本对应的子类目标签与所述子类目预测结果,构建子类目分类损失;从所述主类目预测结果中,提取所述主类目标签对应的预测概率,从所述子类目预测结果中,提取所述子类目标签对应的预测概率,根据所述主类目标签对应的预测概率与所述子类目标签对应的预测概率,构建合页损失;将所述主类目分类损失、所述子类目分类损失与所述合页损失融合后,得到目标损失,所述合页损失用于使得更新后的文本类目识别模型所输出的主类目预测结果中,属于各预定子类目的预测概率小于所从属的预定主类目的所对应的预测概率。
在一个实施例中,所述从属于所述主类目标签的子类目标签包括从属于所述主类目标签的第一子类目标签以及从属于所述第一子类目标签的第二子类目标签;所述子类目识别模块还用于:通过所述文本类目识别模型中与所述主类目识别网络相连接的第一子类目识别网络,基于所述主类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的第一子类目预测结果;通过所述文本类目识别模型中与所述第一子类目识别网络相连接的第二子类目识别网络,基于所述第一子类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的第二子类目预测结果;所述损失构建模块还用于:基于所述样本文本对应的主类目标签与所述主类目预测结果、所述样本文本对应的第一子类目标签与所述第一子类目预测结果、所述样本文本对应的第二子类目标签与所述第二子类目预测结果,构建所述目标损失。
在一个实施例中,所述文本类目识别模型的处理装置还包括输入模块和确定模块,所述获取模块还用于:获取待识别文本;所述输入模块用于:将所述待识别文本输入训练好的文本类目识别模型;所述主类目识别模块还用于:通过所述训练好的文本类目识别模型中的主类目识别网络,对所述待识别文本进行类目识别,获得所述待识别文本对应的主类目预测结果;所述子类目识别模块还用于:通过所述训练好的文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述待识别文本进行类目识别,获得所述待识别文本对应的子类目预测结果;所述确定模块用于:根据所述子类目预测结果确定所述待识别文本对应的主类目和/或子类目。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述文本类目识别模型的处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述文本类目识别模型的处理方法的步骤。
一种计算机程序,计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行上述文本类目识别模型的处理方法的步骤。
上述文本类目识别模型的处理方法、装置、计算机设备和存储介质,通过文本类目识别模型中的主类目识别网络,获得样本文本对应的主类目预测结果,由于类目体系越上层,其对应的样本数据量越多,分类难度越低,往往获得的主类目预测结果的准确性更高,那么,文本类目识别模型中的子类目识别网络在预测子类目时,使用主类目预测结果作为先验知识,对样本文本进行预测得到的子类目预测结果准确性就更高。继而,基于样本文本对应的主类目标签与主类目预测结果,以及样本文本对应的从属于主类目标签的子类目标签与子类目预测结果构建目标损失,根据目标损失训练得到的文本类目识别模型识别文本的类目的准确性就更高。也就说,利用高准确度的上层类目的预测结果作为先验知识,影响下层类目的预测结果,从而提高文本类目识别模型对文本多层级分类的准确度。
一种文本的类目识别方法,所述方法包括:
获取待识别文本;
通过训练好的文本类目识别模型中的主类目识别网络,对所述待识别文本进行类目识别,获得所述待识别文本对应的主类目预测结果;
通过所述训练好的文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述待识别文本进行类目识别,获得所述待识别文本对应的子类目预测结果;
根据所述子类目预测结果确定所述待识别文本对应的目标类目,所述目标类目包括主类目和子类目中的至少一种。
一种文本的类目识别装置,所述装置包括:
获取模块,用于获取待识别文本;
主类目识别模块,用于通过训练好的文本类目识别模型中的主类目识别网络,对所述待识别文本进行类目识别,获得所述待识别文本对应的主类目预测结果;
子类目识别模块,用于通过所述训练好的文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述待识别文本进行类目识别,获得所述待识别文本对应的子类目预测结果;
确定模块,用于根据所述子类目预测结果确定所述待识别文本对应的目标类目,所述目标类目包括主类目和子类目中的至少一种。
在一个实施例中,所述获取模块,还用于:获取上传的目标视频;提取所述目标视频对应的视频标题文本,作为所述待识别文本;所述文本的类目识别装置还包括生成模块,所述生成模块用于:根据所述视频标题文本对应的目标类目,生成所述目标视频对应的视频语义特征。
在一个实施例中,获取模块,还用于:获取对象搜索请求;从所述对象搜索请求中提取用于搜索目标对象的输入文本,作为所述待识别文本;所述文本的类目识别装置还包括查找模块和返回模块,所述生成模块用于:根据所述输入文本对应的目标类目,查找与所述目标类目匹配的目标对象;所述返回模块用于:响应于所述对象搜索请求,返回所述目标对象。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述文本的类目识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述文本的类目识别方法的步骤。
一种计算机程序,计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行上述文本的类目识别方法的步骤。
上述文本的类目识别方法、装置、计算机设备和存储介质,通过训练好的文本类目识别模型中的主类目识别网络,获得所述待识别文本对应的主类目预测结果,通过所述训练好的文本类目识别模型中的子类目识别网络,基于所述主类目预测结果,获得所述待识别文本对应的子类目预测结果,根据所述子类目预测结果确定所述待识别文本对应的目标类目,由于训练好的文本类目识别模型对文本进行分类时,利用高准确度的上层类目的预测结果作为先验知识,影响下层类目的预测结果,因此能够提高文本多层级分类的准确度。
附图说明
图1为一个实施例中文本类目识别模型的处理方法的应用环境图;
图2为一个实施例中文本类目识别模型的处理方法的流程框图;
图3为一个实施例中样本文本及其标签数据的示意图;
图4为一个实施例中文本类目识别模型的框架示意图;
图5为另一个实施例中文本类目识别模型的框架示意图;
图6为又一个实施例中文本类目识别模型的框架示意图;
图7为另一个实施例中文本类目识别模型的处理方法的流程框图;
图8为一个实施例中文本的类目识别方法的流程框图;
图9为一个实施例中文本类目识别模型的处理装置的结构框图;
图10为一个实施例中文本的类目识别装置的结构框图;
图11为一个实施例中计算机设备的内部结构图;
图12为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的文本类目识别模型的处理方法和文本的类目识别方法,涉及人工智能(Artificial Intelligence,AI)技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的文本类目识别模型的处理方法,主要涉及人工智能的机器学习技术(Machine Learning,ML)。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
例如,在本申请实施例中,通过样本文本及样本文本对应的标签数据对文本类目识别模型进行模型训练,标签数据包括样本文本对应的主类目标签以及从属于主类目的子类目标签,在训练过程中,通过文本类目识别模型中的主类目识别网络的主类目预测结果,影响文本类目识别模型中的子类目识别网络的子类目预测结果,最终获得用于识别文本的主类目和/或子类目的文本类目识别模型。
本申请实施例提供的文本类目识别模型的处理方法,还涉及区块链技术。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
例如,本申请实施例将样本文本及样本文本对应的标签数据存储在区块链网络的其中一个节点上,计算机设备通过区块链网络获取样本文本及样本文本对应的标签数据。
本申请实施例提供的文本的类目识别方法,主要涉及人工智能的自然语言处理(Nature Language processing,NLP)技术。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的文本的类目识别方法,主要涉及自然语言处理技术领域的文本预处理(Text preprocessing)技术。文本预处理包括语句分类、词性标注、词句切分等。例如,在本申请实施例中,通过训练好的文本类目识别模型中的主类目识别网络获得待识别文本的主类目预测结果,通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果获得待识别文本的子类目预测结果,根据子类目预测结果确定待识别文本对应的主类目和/或子类目。
本申请提供的文本类目识别模型的处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种智能手机、平板电脑、笔记本电脑、台式计算机、便携式可穿戴设备等。服务器104可以是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式***,或者提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个实施例中,终端102获取样本文本及样本文本对应的标签数据,标签数据包括样本文本对应的主类目标签以及从属于主类目标签的子类目标签,将样本文本及样本文本对应的标签数据发送给服务器104,服务器104通过文本类目识别模型中的主类目识别网络,对样本文本进行类目识别,获得样本文本对应的主类目预测结果,通过文本类目识别模型中的子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的子类目预测结果,基于样本文本对应的主类目标签与主类目预测结果、样本文本对应的子类目标签与子类目预测结果,构建目标损失,根据目标损失更新文本类目识别模型的模型参数后,返回获取样本文本及样本文本对应的标签数据的步骤继续训练,直至训练结束时,获得用于识别文本类目的文本类目识别模型。
本申请实施例提供的文本类目识别模型的处理方法,其执行主体可以是本申请实施例提供的文本类目识别模型的处理装置,或集成了该文本类目识别模型的处理装置的计算机设备,其中该文本类目识别模型的处理装置可以采用硬件或软件的方式实现。计算机设备可以是图1中所示的终端102或服务器104。
本申请实施例提供的文本类目识别模型的处理方法,可应用于文本类目识别模型的训练场景。文本类目识别模型用于识别文本所属的类目,例如识别文本所属的粗粒度类目、细粒度类目或多层级类目等。多层级类目是多于一个类目、且多于一个类目之间存在从属关系,例如识别文本所属的主类目和子类目等。子类目从属于主类目,例如主类目为“应用程序”,子类目可以是“小程序”。子类目可以是从属于主类目的单个子类目,也可以是互相具有从属关系的多于一个子类目,例如主类目为“应用程序”,第一子类目可以是“小程序”,第二子类目可以是“点单类小程序”,第二子类目从属于第一子类目。
在一个实施例中,计算机设备获取样本文本及样本文本对应的标签数据,标签数据包括样本文本对应的主类目标签以及从属于主类目标签的子类目标签;通过文本类目识别模型中的主类目识别网络,对样本文本进行类目识别,获得样本文本对应的主类目预测结果;通过文本类目识别模型中的子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的子类目预测结果;基于样本文本对应的主类目标签与主类目预测结果、样本文本对应的子类目标签与子类目预测结果,构建目标损失;根据目标损失更新文本类目识别模型的模型参数后,返回获取样本文本及样本文本对应的标签数据的步骤继续训练,直至训练结束时,获得用于识别文本类目的文本类目识别模型。
可以理解,通过不同应用场景的样本文本及其对应的标签数据对文本类目识别模型进行训练,获得可识别多个应用场景中文本的主类目和/或子类目的文本类目识别模型。
本申请提供的文本的类目识别方法,也可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。
在一个实施例中,终端102获取待识别文本,将待识别文本发送给服务器104,服务器104通过训练好的文本类目识别模型中的主类目识别网络,对待识别文本进行类目识别,获得待识别文本对应的主类目预测结果,通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果对待识别文本进行类目识别,获得待识别文本对应的子类目预测结果,根据子类目预测结果确定待识别文本对应的目标类目,目标类目包括主类目和子类目中的至少一种。
本申请实施例提供的文本的类目识别方法,其执行主体可以是本申请实施例提供的文本的类目识别装置,或集成了该文本的类目识别装置的计算机设备,其中该文本的类目识别装置可以采用硬件或软件的方式实现。计算机设备可以是图1中所示的终端102或者服务器104。
本申请实施例提供的文本的类目识别方法,可应用于分类场景、搜索场景等。分类场景是对对象进行类目识别的场景,例如文本分类场景、视频分类场景、商品分类场景、文章分类场景等。搜索场景可以是对用于搜索对象的输入文本进行分类,以在相应类目下查找输入文本对应的对象。
例如,计算机设备提取视频的视频标题文本,通过本申请实施例提供的训练好的文本类目识别模型确定视频标题文本对应的目标类目,目标类目包括主类目和/或子类目,子类目是互相具有从属关系的至少一个子类目,从而对视频进行粗粒度分类、细粒度分类或多层级分类。
再例如,计算机设备提取商品的商品描述文本,通过本申请实施例提供的训练好的文本类目识别模型确定商品描述文本对应的目标类目,目标类目包括主类目和/或子类目,子类目是互相具有从属关系的至少一个子类目,从而对商品进行粗粒度分类、细粒度分类或多层级分类。
又例如,计算机设备获取对象搜索请求,从对象搜索请求中提取输入文本,通过本申请实施例提供的训练好的文本类目识别模型确定输入文本对应的目标类目,目标类目包括主类目和/或子类目,子类目是互相具有从属关系的至少一个子类目,从而在相应类目下输入文本对应的对象。
在一个实施例中,计算机设备获取待识别文本;通过训练好的文本类目识别模型中的主类目识别网络,对待识别文本进行类目识别,获得待识别文本对应的主类目预测结果;通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果对待识别文本进行类目识别,获得待识别文本对应的子类目预测结果;根据子类目预测结果确定待识别文本对应的目标类目,目标类目包括主类目和子类目中的至少一种。
在一个实施例中,如图2所示,提供了一种文本类目识别模型的处理方法,本实施例主要以该方法应用于上述图1中的计算机设备(终端102或者服务器104)来举例说明,包括以下步骤:
步骤S202,获取样本文本及样本文本对应的标签数据,标签数据包括样本文本对应的主类目标签以及从属于主类目标签的子类目标签。
其中,样本文本是本申请实施例中用于训练文本类目识别模型的文本数据。文本类目识别模型用于识别文本所属的类目,例如识别文本所属的粗粒度类目、细粒度类目或多层级类目等。多层级类目是多于一个类目、且多于一个类目之间存在从属关系,例如识别文本所属的主类目和子类目,子类目从属于主类目;再例如识别文本所属的主类目、第一子类目和第二子类目,第二子类目从属于第一子类目。
主类目标签用于标注样本文本所属的主类目,子类目标签用于标注样本文本所属的子类目。子类目标签可以是从属于主类目标签的单个子类目标签,例如主类目标签为“应用程序”,子类目标签可以是“小程序”;子类目标签也可以是互相具有从属关系的多于一个子类目标签,例如主类目标签为“应用程序”,第一子类目标签为“小程序”,第二子类目标签为“点单类小程序”,第二子类目标签从属于第一子类目标签。
在一个实施例中,计算机设备从文本类目识别模型的应用场景中获取样本文本。例如,文本类目识别模型用于根据视频的视频标题文本对视频进行分类,计算机设备获取视频标题文本作为样本文本。参照图3,图3示出了一个实施例中样本文本及其标签数据的示意图。可以看到,以标签数据包括样本文本对应的主类目标签以及从属于主类目标签的单个子类目标签为例,样本文本“扫一扫,即刻点单”,主类目标签为应用程序,子类目标签为小程序。
步骤S204,通过文本类目识别模型中的主类目识别网络,对样本文本进行类目识别,获得样本文本对应的主类目预测结果。
其中,主类目识别网络是文本类目识别模型中的网络结构,用于识别文本所属的主类目。主类目预测结果可以是样本文本对应各预定主类目的预测概率,也可以是预测的样本文本所属的目标主类目,还可以是按照样本文本对应各预定主类目的预测概率选取的候选主类目,等等。
在一个实施例中,计算机设备将样本文本输入文本类目识别模型中的主类目识别网络,通过主类目识别网络对样本文本进行类目识别,获得样本文本对应的主类目预测结果。
在一个实施例中,计算机设备通过主类目识别网络的语义编码层,对样本文本进行语义编码,获得语义编码向量,通过主类目识别网络的归一化层,获得语义编码向量对应的主类目预测结果。
其中,语义编码向量是将文本以数字形式进行表达的结果。比如,将样本文本表示为数字形式“[0 0 0 1 0 0 0 0 0 0 0...]”,此时,“[0 0 0 1 0 0 0 0 0 0 0...]”即为样本文本的语义编码向量。可以理解,这里不限定将样本文本转换为何种表示的向量,只要能够将样本文本进行数字化表示即可。比如可将样本文本转换为高维稀疏向量或低维稠密向量。
在一个实施例中,语义编码层可采用通用的语义编码网络结构,例如CNN(Convolutional Neural Networks,卷积神经网络)网络结构、LSTM(Long Short-TermMemory,长短期记忆网络)网络结构、LSTM与Attention(注意力机制)相结合的网络结构等。
在一个实施例中,归一化层可采用通用的归一化函数,例如Softmax函数等。
在一个实施例中,参照图4,图4中示出了一个实施例中文本类目识别模型的框架示意图。可以看到,计算机设备将样本文本输入主类目识别网络的语义编码层,通过语义编码层获得样本文本对应的语义编码向量,将语义编码向量输入主类目识别网络的归一化层,通过归一化层获得语义编码向量对应的主类目预测结果。
在一个实施例中,计算机设备通过归一化层将语义编码向量转换为对应各预定主类目的预测概率,根据语义编码向量对应各预定主类目的预测概率确定主类目预测结果。
在一个实施例中,计算机设备通过归一化层获得语义编码向量对应各预定主类目的预测概率后,将语义编码向量对应各预定主类目的预测概率作为主类目预测结果。在另一些实施例中,计算机设备根据语义编码向量对应各预定主类目的预测概率预测样本文本所属的目标主类目,将预测的目标主类目作为主类目预测结果;或者,计算机设备根据语义编码向量对应各预定主类目的预测概率选取候选主类目,将选取的候选主类目作为主类目预测结果。可选地,计算机设备按照样本文本对应各预定主类目的预测概率,由高至低对各预定主类目进行排序,从排序结果中选取排序靠前的指定数量的预定主类目作为候选主类目。
步骤S206,通过文本类目识别模型中的子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的子类目预测结果。
其中,子类目识别网络是文本类目识别模型中的网络结构,用于识别文本所属的子类目。可选地,子类目识别网络与主类目识别网络相连接。子类目预测结果可以是样本文本对应各预定子类目的预测概率,也可以是预测的样本文本所属的目标子类目,还可以是按照样本文本对应各预定子类目的预测概率选取的候选子类目,等等。
本申请中,计算机设备将主类目识别网络输出的主类目预测结果传递至子类目识别网络中,通过主类目预测结果影响子类目预测结果。发明人考虑到,在多层级分类中,类目越上层,分类粒度越粗,训练数据量越多,故上层类目的分类难度低于下层类目的分类难度,上层类目的分类准确度高于下层类目的分类准确度,因此对于下层类目的分类任务,可利用高准确度的上层类目的分类结果作为先验知识,来提高下层类目的分类准确度。
在一个实施例中,计算机设备将主类目预测结果传递至文本类目识别模型中的子类目识别网络,通过子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的子类目预测结果。
在一个实施例中,计算机设备将样本文本对应的语义编码向量和主类目预测结果传递至文本类目识别模型中的子类目识别网络,通过子类目识别网络,基于主类目预测结果对语义编码向量进行类目识别,获得样本文本对应的子类目预测结果。可选地,继续参照图4,可以看到,计算机设备通过子类目识别网络的归一化层,基于主类目预测结果,获得语义编码向量对应的子类目预测结果。
在一个实施例中,计算机设备通过子类目识别网络对样本文本进行类目识别,获得原始子类目预测结果,利用主类目预测结果调整原始子类目识别结果,获得样本文本对应的子类目预测结果。原始子类目预测结果可以是样本文本对应各预定子类目的预测概率,也可以是预测的样本文本所属的目标子类目,还可以是按照样本文本对应各预定子类目的预测概率选取的候选子类目,等等。例如,计算机设备从主类目预测结果中获取样本文本对应的目标主类目或候选主类目,升高从属于目标主类目或候选主类目的预定子类目所对应的预测概率,降低剩余的预定子类目所对应的预测概率。
在一个实施例中,计算机设备通过子类目识别网络,基于样本文本对应的语义编码向量与主类目预测结果确定样本文本对应的子类目语义向量,基于子类目语义向量获得样本文本对应的子类目预测结果。例如,计算机设备从主类目预测结果中获取样本文本对应的目标主类目或候选主类目,确定目标主类目或候选主类目对应的语义表征向量,融合样本文本对应的语义表征向量与目标主类目对应的语义表征向量或候选主类目对应的语义表征向量,获得样本文本对应的子类目语义向量,在基于子类目语义向量获得样本文本对应的子类目预测结果时,子类目语义向量中目标主类目对应的语义表征向量或候选主类目对应的语义表征向量部分,能够提升对目标主类目或候选主类目对应的预定子类目的关注度。
步骤S208,基于样本文本对应的主类目标签与主类目预测结果、样本文本对应的子类目标签与子类目预测结果,构建目标损失。
在一个实施例中,步骤S208包括:基于样本文本对应的主类目标签与主类目预测结果,构建主类目分类损失,基于样本文本对应的子类目标签与子类目预测结果,构建子类目分类损失;将主类目分类损失与子类目分类损失融合后,得到目标损失。
其中,主类目分类损失用于描述主类目预测结果符合主类目标签的程度,子类目分类损失用于描述子类目预测结果符合子类目标签的程度。可以理解,计算机设备可采用通用的损失函数构建主类目分类损失和子类目分类损失,下面以负对数损失函数为例进行介绍。
在一个实施例中,计算机设备基于样本文本对应的主类目标签与主类目预测结果之间的差异,构建主类目分类损失,可通过以下公式进行表示:
其中,loss1是主类目分类损失;yi是样本文本在第i个主类目对应的取值,若第i个主类目是主类目标签标注的主类目,取值为1,否则为0;ai是样本文本在第i个主类目对应的预测概率;n是主类目数量。
计算机设备基于样本文本对应的子类目标签与子类目预测结果之间的差异,构建子类目分类损失,可通过以下公式进行表示:
其中,loss2是子类目分类损失;yj是样本文本在第i个子类目对应的取值,若第j个子类目是子类目标签标注的子类目,取值为1,否则为0;aj是样本文本在第j个子类目对应的预测概率;m是子类目数量。
计算机设备将主类目分类损失与子类目分类损失融合后,得到目标损失,可通过以下公式进行表示:
loss=λ1loss1+λ2loss2
其中,loss是目标损失;loss1是主类目分类损失;loss2是子类目分类损失;λ1是主类目分类损失对应的权重;λ2是子类目分类损失对应的权重。
步骤S210,根据目标损失更新文本类目识别模型的模型参数后,返回获取样本文本及样本文本对应的标签数据的步骤继续训练,直至训练结束时,获得用于识别文本类目的文本类目识别模型。
在一个实施例中,计算机设备根据目标损失更新文本类目识别模型的模型参数。在另一个实施例中,计算机设备根据主类目分类损失更新主类目识别网络的模型参数,根据子类目分类损失更新子类目识别网络的模型参数。
在一个实施例中,当训练次数达到指定次数,或者,目标损失的变化量小于指定阈值等,训练结束。
上述文本类目识别模型的处理方法中,通过文本类目识别模型中的主类目识别网络,获得样本文本对应的主类目预测结果,由于类目体系越上层,其对应的样本数据量越多,分类难度越低,往往获得的主类目预测结果的准确性更高,那么,文本类目识别模型中的子类目识别网络在预测子类目时,使用主类目预测结果作为先验知识,对样本文本进行预测得到的子类目预测结果准确性就更高。继而,基于样本文本对应的主类目标签与主类目预测结果,以及样本文本对应的从属于主类目标签的子类目标签与子类目预测结果构建目标损失,根据目标损失训练得到的文本类目识别模型识别文本的类目的准确性就更高。也就说,利用高准确度的上层类目的预测结果作为先验知识,影响下层类目的预测结果,从而提高文本类目识别模型对文本多层级分类的准确度。
在一个实施例中,通过文本类目识别模型中的主类目识别网络,对样本文本进行类目识别,获得样本文本对应的主类目预测结果,包括:通过主类目识别网络的语义编码层,对样本文本进行语义编码,获得语义编码向量;通过主类目识别网络的归一化层,将语义编码向量转换为对应预定主类目的预测概率,作为主类目预测结果。
在一个实施例中,计算机设备将样本文本输入文本类目识别模型中的主类目识别网络,通过主类目识别网络的语义编码层,对样本文本进行语义编码,获得语义编码向量,通过主类目识别网络的归一化层,将语义编码向量转换为对应各预定主类目的预测概率,作为样本文本对应的主类目预测结果。
本实施例中,将样本文本对应各预定主类目的预测概率作为主类目预测结果传递至子类目识别网络,使得计算机设备通过子类目识别网络对样本文本进行类目识别时,能够采用多种方式影响子类目预测结果。
在一个实施例中,通过文本类目识别模型中的子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的子类目预测结果,包括:通过子类目识别网络的信息融合层,基于主类目预测结果与样本文本对应的语义编码向量,确定样本文本对应的子类目语义向量;通过子类目识别网络的归一化层,将子类目语义向量转换为对应预定子类目的预测概率,作为子类目预测结果。
在一个实施例中,参照图5,图5中示出了一个实施例中文本类目识别模型的框架示意图。可以看到,计算机设备将样本文本对应的语义编码向量和主类目预测结果传递至子类目识别网络,通过子类目识别网络的信息融合层,基于样本文本对应的语义编码向量与主类目预测结果确定样本文本对应的子类目语义向量,将子类目语义向量输入子类目识别网络的归一化层,通过归一化层将语义编码向量转换为对应各预定子类目的预测概率,作为子类目预测结果。
在一个实施例中,计算机设备获取主类目预测结果中的目标主类目或候选主类目,确定目标主类目或候选主类目对应的语义表征向量,融合样本文本对应的语义表征向量与目标主类目对应的语义表征向量或候选主类目对应的语义表征向量,得到样本文本对应的子类目语义向量。可选地,当主类目识别网络输出的主类目预测结果为样本文本对应各预定主类目的预测概率时,计算机设备根据样本文本对应各预定主类目的预测概率确定样本文本所属的目标主类目,或者根据样本文本对应各预定主类目的预测概率选取候选主类目。
在一个实施例中,计算机设备通过已训练的语义编码模型,对目标主类目或候选主类目进行语义编码,获得目标主类目或候选主类目对应的语义表征向量。可选地,语义编码模型可采用通用的语义编码网络结构,例如根据通用语料训练好的word2vec网络结构等。
在一个实施例中,计算机设备对样本文本对应的语义表征向量与目标主类目对应的语义表征向量或候选主类目对应的语义表征向量进行拼接,得到样本文本对应的子类目语义向量。
在一个实施例中,拼接方式可以是Concat拼接、哈达玛积(Hadamard product)等。假设目标主类目对应的语义表征向量为A,样本文本对应的语义编码向量为B,子类目语义向量为C,Concat拼接可表示为:C=[A-B],哈达玛积可表示为:C=[A*B]。可以理解,计算机设备先将目标主类目对应的语义表征向量或候选主类目对应的语义表征向量与样本文本对应的语义编码向量转换至相同的向量维度,再对目标主类目对应的语义表征向量或候选主类目对应的语义表征向量与样本文本对应的语义编码向量进行拼接。
本实施例中,基于样本文本对应的语义编码向量与主类目预测结果确定样本文本对应的子类目语义向量,这样,计算机设备基于子类目语义向量获得样本文本对应的子类目预测结果,子类目语义向量中主类目预测结果的相关部分,能够影响子类目预测结果。
在一个实施例中,基于主类目预测结果与样本文本对应的语义编码向量,确定样本文本对应的子类目语义向量,包括:根据主类目预测结果确定候选主类目;融合各候选主类目对应的语义表征向量,得到主类目语义向量;将主类目语义向量与样本文本对应的语义编码向量拼接后,得到样本文本对应的子类目语义向量。
在一个实施例中,计算机设备通过子类目识别网络的信息融合层,按照样本文本对应各预定主类目的预测概率,从各预定子类目中选取候选主类目,融合各候选主类目对应的语义表征向量得到主类目语义向量,将主类目语义向量与样本文本对应的语义编码向量拼接后,得到样本文本对应的子类目语义向量。
在一个实施例中,计算机设备按照样本文本对应各预定主类目的预测概率,由高至低对各预定主类目进行排序,从排序结果中选取排序靠前的指定数量的预定主类目作为候选主类目。
在一个实施例中,计算机设备对各候选主类目对应的语义表征向量进行拼接,得到主类目语义向量。
本实施例中,融合各候选主类目对应的语义表征向量得到主类目语义向量,将主类目语义向量与样本文本对应的语义编码向量拼接,得到样本文本对应的子类目语义向量,这样,计算机设备基于子类目语义向量获得样本文本对应的子类目预测结果,子类目语义向量中主类目语义向量的相关部分,能够提升对各候选主类目对应的预定子类目的关注度。
在一个实施例中,融合各候选主类目对应的语义表征向量,得到主类目语义向量,包括:确定各候选主类目对应的语义表征向量;根据主类目预测结果,确定各候选主类目对应的预测概率;按各候选主类目对应的预测概率,对各候选主类目对应的语义表征向量加权求和,得到主类目语义向量。
具体地,考虑到样本文本对应各预定主类目的预测概率不同,计算机设备先按各候选主类目对应的预测概率,对各候选主类目对应的语义表征向量加权求和,得到主类目语义向量。
在一个实施例中,计算机设备根据各候选主类目对应的预测概率,确定各候选主类目对应的权重,按照各候选主类目对应的权重,对各候选主类目对应的语义表征向量加权求和,得到主类目语义向量。例如,计算机设备根据各候选主类目对应的预测概率,对各候选主类目按照由高至低的顺序进行排序,对各候选主类目分配与排序结果中的排序相对应的权重,比如排序越靠前,权重越高。再例如,计算机设备根据各候选主类目对应的预测概率之间的比例关系,确定各候选主类目对应的权重。又例如,计算机设备将各候选主类目对应的预测概率作为权重。
本实施例中,按各候选主类目对应的预测概率,对各候选主类目对应的语义表征向量加权求和,得到主类目语义向量,将主类目语义向量与样本文本对应的语义编码向量拼接,得到样本文本对应的子类目语义向量,这样,计算机设备基于子类目语义向量获得样本文本对应的子类目预测结果,子类目语义向量中主类目语义向量的相关部分,能够不同程度地提升对各候选主类目对应的预定子类目的关注度。
在一个实施例中,通过文本类目识别模型中的子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的子类目预测结果,包括:通过子类目识别网络的归一化层,将样本文本对应的语义编码向量转换为对应预定子类目的预测概率;通过子类目识别网络的信息修正层,根据主类目预测结果中各预定主类目对应的预测概率,对从属于相应预定主类目的预定子类目所对应的预测概率进行调整,将调整后的对应的预定子类目的预测概率,作为子类目预测结果。
在一个实施例中,参照图6,图6中示出了一个实施例中文本类目识别模型的框架示意图。可以看到,计算机设备将样本文本对应的语义编码向量和主类目预测结果传递至子类目识别网络,通过子类目识别网络的归一化层,将样本文本对应的语义编码向量转换为对应各预定子类目的预测概率,通过子类目识别网络的信息修正层,根据主类目预测结果中各预定主类目对应的预测概率,对从属于相应预定主类目的预定子类目所对应的预测概率进行调整,将调整后的对应的预定子类目的预测概率,作为子类目预测结果。
在一个实施例中,计算机设备根据主类目预测结果中各预定主类目对应的预测概率,确定各预定主类目对应的权重,按照各预定主类目对应的权重,调整从属于相应预定主类目的预定子类目所对应的预测概率,得到子类目预测结果。
在一个实施例中,计算机设备根据各预定主类目对应的预测概率,对各预定主类目按照由高至低的顺序进行排序,对各预定主类目分配与排序结果中的排序相对应的权重,比如排序越靠前,权重越高。在另一些实施例中,计算机设备根据各预定主类目对应的预测概率之间的比例关系,确定各预定主类目对应的权重。或者,计算机设备将各预定主类目对应的预测概率作为权重。
在一个实施例中,对于每个预定主类目,将该预定主类目对应的权重与从属于该预定主类目的预定子类目所对应的预测概率相乘,得到子类目预测结果。
在一个实施例中,计算机设备从主类目预测结果中获取样本文本对应的目标主类目或候选主类目,升高从属于目标主类目或候选主类目的预定子类目所对应的预测概率,降低剩余的预定子类目所对应的预测概率。
在一个实施例中,对于从属于候选主类目的预定子类目,计算机设备按照各候选主类目对应的预测概率,确定各候选主类目对应的升高程度,按照各候选主类目对应的升高程度升高从属于相应候选主类目的预定子类目所对应的预测概率,候选主类目对应的升高程度与候选主类目对应的预测概率呈正比。
在一个实施例中,对于剩余的预定子类目,计算机设备确定各剩余的预定子类目共同对应的总降低程度,根据总降低程度和剩余的预定子类目的数量确定降低程度均值,按照降低程度均值降低各剩余的预定子类目所对应的预测概率。在另一个实施例中,计算机设备根据总降低程度和各剩余的预定子类目从属的预定主类目对应的预测概率,确定各预定主类目对应的降低程度,按照各预定主类目对应的降低程度对应降低各剩余的预定子类目所对应的预测概率,预定主类目对应的降低程度与预定主类目对应的预测概率呈反比。
本实施例中,根据主类目预测结果中各预定主类目对应的预测概率,对从属于相应预定主类目的预定子类目所对应的预测概率进行调整,能够提升对命中可能性高的预定主类目对应的预定子类目的关注度,降低对命中可能性低的预定主类目对应的预定子类目的关注度。
在一个实施例中,基于样本文本对应的主类目标签与主类目预测结果、样本文本对应的子类目标签与子类目预测结果,构建目标损失,包括:基于样本文本对应的主类目标签与主类目预测结果,构建主类目分类损失,基于样本文本对应的子类目标签与子类目预测结果,构建子类目分类损失;从主类目预测结果中,提取主类目标签对应的预测概率,从子类目预测结果中,提取子类目标签对应的预测概率,根据主类目标签对应的预测概率与子类目标签对应的预测概率,构建合页损失;将主类目分类损失、子类目分类损失与合页损失融合后,得到目标损失,合页损失用于使得更新后的文本类目识别模型所输出的主类目预测结果中,属于各预定子类目的预测概率小于所从属的预定主类目的所对应的预测概率。
发明人考虑到,在多层级分类中,类目越上层,分类粒度越粗,分类类目越少,样本文本属于该分类类目的预测概率,应当大于样本文本属于下层类目的预测概率,当然该下层类目从属于该分类类目。例如,样本文本属于分类类目“应用程序”的预测概率,应当大于样本文本属于“应用程序”的下层类目“小程序”的预测概率。出于上述考虑,计算机设备从主类目预测结果中,提取主类目标签标注的主类目对应的预测概率作为主类目标签对应的预测概率,提取子类目标签标注的子类目对应的预测概率作为子类目标签对应的预测概率,根据主类目标签对应的预测概率与子类目标签对应的预测概率,构建合页损失,将主类目分类损失、子类目分类损失与合页损失融合后,得到目标损失。
在一个实施例中,合页损失可通过以下公式进行表示:
loss*=max(0,α+score2-score1)
其中,loss*是合页损失;α是常数;score2是样本文本在子类目标签标注的子类目对应的预测概率,score1是样本文本在主类目标签标注的主类目对应的预测概率。
目标损失可通过以下公式进行表示:
loss=λ1loss1+λ2loss2+λ3loss*
其中,loss是目标损失;loss1是主类目分类损失;loss2是子类目分类损失;loss*是合页损失;λ1是主类目分类损失对应的权重;λ2是子类目分类损失对应的权重;λ3是合页损失对应的权重。
本实施例中,在目标损失中加入了合页损失,合页损失是根据多层次分类的特性所构建的损失,有助于提升训练效果。
在一个实施例中,从属于主类目标签的子类目标签包括从属于主类目标签的第一子类目标签以及从属于第一子类目标签的第二子类目标签;通过文本类目识别模型中的子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的子类目预测结果,包括:通过文本类目识别模型中与主类目识别网络相连接的第一子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的第一子类目预测结果;通过文本类目识别模型中与第一子类目识别网络相连接的第二子类目识别网络,基于第一子类目预测结果对样本文本进行类目识别,获得样本文本对应的第二子类目预测结果;基于样本文本对应的主类目标签与主类目预测结果、样本文本对应的子类目标签与子类目预测结果,构建目标损失,包括:基于样本文本对应的主类目标签与主类目预测结果、样本文本对应的第一子类目标签与第一子类目预测结果、样本文本对应的第二子类目标签与第二子类目预测结果,构建目标损失。
本实施例适用于对文本进行多层级分类的文本类目识别模型进行训练,多层级分类是将文本分类为多于一个类目,且多于一个类目之间存在从属关系,例如识别文本所属的主类目和多于一个子类目,多于一个子类目之间存在从属关系。本实施例以训练用于将文本分类为主类目、第一子类目和第二子类目的文本类目识别模型为例进行介绍。
在一个实施例中,计算机设备通过文本类目识别模型中与主类目识别网络相连接的第一子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的第一子类目预测结果;通过文本类目识别模型中与第一子类目识别网络相连接的第二子类目识别网络,基于第一子类目预测结果或者主类目预测结果对样本文本进行类目识别,获得样本文本对应的第二子类目预测结果;基于样本文本对应的主类目标签与主类目预测结果之间的差异、样本文本对应的第一子类目标签与第一子类目预测结果之间的差异、样本文本对应的第二子类目标签与第二子类目预测结果之间的差异,构建目标损失;根据目标损失更新文本类目识别模型的模型参数。
在一个实施例中,计算机设备根据主类目标签对应的预测概率、第一子类目标签对应的预测概率和第二子类目标签对应的预测概率中的至少两个构建合页损失,基于样本文本对应的主类目标签与主类目预测结果之间的差异、样本文本对应的第一子类目标签与第一子类目预测结果之间的差异、样本文本对应的第二子类目标签与第二子类目预测结果之间的差异,以及合页损失,构建目标损失。
本实施例中,对用于对文本进行多层级分类的文本类目识别模型进行训练,由于子类目识别网络基于主类目预测结果或者上层子类目识别结果对样本文本进行类目识别,因此训练得到的文本类目识别模型对文本进行多层级分类时,能够利用高准确度的上层类目的预测结果作为先验知识,影响下层类目的预测结果,从而提高对文本进行多层级分类的准确度。
在一个实施例中,该方法还包括:获取待识别文本;将待识别文本输入训练好的文本类目识别模型;通过训练好的文本类目识别模型中的主类目识别网络,对待识别文本进行类目识别,获得待识别文本对应的主类目预测结果;通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果对待识别文本进行类目识别,获得待识别文本对应的子类目预测结果;根据子类目预测结果确定待识别文本对应的主类目和/或子类目。
其中,待识别文本是待通过训练好的文本类目识别模型识别所属类目的文本。
在一个实施例中,计算机设备将待识别文本输入训练好的文本类目识别模型,通过训练好的文本类目识别模型中的主类目识别网络,对待识别文本进行类目识别,获得待识别文本对应各预定主类目的预测概率作为主类目预测结果,通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果对待识别文本进行类目识别,获得待识别文本对应各预定子类目的预测概率作为子类目预测结果,根据子类目预测结果确定待识别文本对应的主类目和/或子类目。可选地,计算机设备根据子类目预测结果选取预测概率最高的预定子类目作为待识别文本对应的子类目。
在一个实施例中,计算机设备可从训练好的文本类目识别模型中每层级类目识别网络获得相应的类目预测结果,根据每层级类目识别网络对应的类目预测结果确定待识别文本对应的主类目和子类目。计算机设备也可获得最终的子类目,基于最终的子类目向上溯源,确定待识别文本对应的主类目和子类目。
本实施例中,由于训练好的文本类目识别模型对文本进行分类时,能够利用高准确度的上层类目的预测结果作为先验知识,影响下层类目的预测结果,因此能够提高对文本进行分类的准确度。
在一个实施例中,参照图7,提供了一种文本类目识别模型的处理方法,包括以下步骤:
步骤S702,获取样本文本及样本文本对应的标签数据,标签数据包括样本文本对应的主类目标签以及从属于主类目标签的子类目标签。
步骤S704,通过主类目识别网络的语义编码层,对样本文本进行语义编码,获得语义编码向量;通过主类目识别网络的归一化层,将语义编码向量转换为对应预定主类目的预测概率,作为主类目预测结果。
步骤S706,通过子类目识别网络的信息融合层,根据主类目预测结果确定候选主类目;确定各候选主类目对应的语义表征向量;根据主类目预测结果,确定各候选主类目对应的预测概率;按各候选主类目对应的预测概率,对各候选主类目对应的语义表征向量加权求和,得到主类目语义向量。
步骤S708,将主类目语义向量与样本文本对应的语义编码向量拼接后,得到样本文本对应的子类目语义向量;通过子类目识别网络的归一化层,将子类目语义向量转换为对应预定子类目的预测概率,作为子类目预测结果。
步骤S710,基于样本文本对应的主类目标签与主类目预测结果,构建主类目分类损失,基于样本文本对应的子类目标签与子类目预测结果,构建子类目分类损失,从主类目预测结果中,提取主类目标签对应的预测概率,从子类目预测结果中,提取子类目标签对应的预测概率,根据主类目标签对应的预测概率与子类目标签对应的预测概率,构建合页损失。
其中,合页损失用于使得更新后的文本类目识别模型所输出的主类目预测结果中,属于各预定子类目的预测概率小于所从属的预定主类目的所对应的预测概率。
步骤S712,将主类目分类损失、子类目分类损失与合页损失融合后,得到目标损失。
步骤S714,根据目标损失更新文本类目识别模型的模型参数后,返回获取样本文本及样本文本对应的标签数据的步骤继续训练,直至训练结束时,获得用于识别文本类目的文本类目识别模型。
上述文本类目识别模型的处理方法,通过文本类目识别模型中的主类目识别网络,获得样本文本对应的主类目预测结果,由于类目体系越上层,其对应的样本数据量越多,分类难度越低,往往获得的主类目预测结果的准确性更高,那么,文本类目识别模型中的子类目识别网络在预测子类目时,使用主类目预测结果作为先验知识,对样本文本进行预测得到的子类目预测结果准确性就更高。继而,基于样本文本对应的主类目标签与主类目预测结果、样本文本对应的从属于主类目标签的子类目标签与子类目预测结果、及主类目标签对应的预测概率与子类目标签对应的预测概率构建目标损失,根据目标损失训练得到的文本类目识别模型识别文本的类目的准确性就更高。也就说,利用高准确度的上层类目的预测结果作为先验知识,影响下层类目的预测结果,从而提高文本类目识别模型对文本多层级分类的准确度
在一个实施例中,如图8所示,提供了一种文本的类目识别方法,本实施例主要以该方法应用于上述图1中的计算机设备(终端102或者服务器104)来举例说明,包括以下步骤:
步骤S802,获取待识别文本。
其中,待识别文本是待通过本申请实施例中训练好的文本类目识别模型进行分类的文本。
在一个实施例中,计算机设备从文本类目识别模型的应用场景中获取待识别文本。例如,文本类目识别模型用于根据视频的视频标题文本对视频进行分类,计算机设备获取视频标题文本作为待识别文本。再例如,文本类目识别模型用于对输入文本进行分类,以在相应类目下搜索输入文本对应的对象,计算机设备将输入文本作为待识别文本。
步骤S804,通过训练好的文本类目识别模型中的主类目识别网络,对待识别文本进行类目识别,获得待识别文本对应的主类目预测结果。
在一个实施例中,主类目预测结果为待识别文本对应各预定主类目的预测概率。
关于步骤S804的具体实现方式,可参照上述实施例中步骤S204的具体实现方式,在此不再赘述。
步骤S806,通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果对待识别文本进行类目识别,获得待识别文本对应的子类目预测结果。
在一个实施例中,子类目预测结果为待识别文本对应各预定子类目的预测概率。
关于步骤S806的具体实现方式,可参照上述实施例中步骤S206的具体实现方式,在此不再赘述。
步骤S808,根据子类目预测结果确定待识别文本对应的目标类目,目标类目包括主类目和子类目中的至少一种。
在一个实施例中,计算机设备根据子类目预测结果,选取预测概率最高的预定子类目作为待识别文本对应的子类目。
在一个实施例中,计算机设备可从训练好的文本类目识别模型中每层级类目识别网络获得相应的类目预测结果,根据每层级类目识别网络对应的类目预测结果确定待识别文本对应的主类目和子类目。计算机设备也可获得最终的子类目,基于最终的子类目向上溯源,确定待识别文本对应的主类目和子类目。
上述文本的类目识别方法中,通过训练好的文本类目识别模型中的主类目识别网络,获得待识别文本对应的主类目预测结果,通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果,获得待识别文本对应的子类目预测结果,根据子类目预测结果确定待识别文本对应的目标类目,由于训练好的文本类目识别模型对文本进行分类时,利用高准确度的上层类目的预测结果作为先验知识,影响下层类目的预测结果,因此能够提高文本多层级分类的准确度。
在一个实施例中,获取待识别文本,包括:获取上传的目标视频;提取目标视频对应的视频标题文本,作为待识别文本;在根据子类目预测结果确定待识别文本对应的目标类目之后,该方法还包括:根据视频标题文本对应的目标类目,生成目标视频对应的视频语义特征。
其中,视频语义特征是描述视频语义特性的数据。视频所属的类目是视频语义特征中的特征维度之一。视频语义特征可应用于视频搜索场景中,例如将用于搜索视频的输入文本与各视频对应的视频语义特征进行特征匹配,从而确定与输入文本相对应的视频,即与输入文本相对应的搜索结果。
在一个实施例中,计算机设备提取上传的目标视频对应的视频标题文本,通过本申请训练好的文本类目识别模型确定视频标题文本对应的目标类目,根据视频标题文本对应的目标类目,生成目标视频对应的视频语义特征。
本申请中训练好的文本类目识别模型适用于视频分类场景,能够对视频进行粗粒度分类、细粒度分类或多层级分类,且提高分类准确度。
在一个实施例中,获取待识别文本,包括:获取对象搜索请求;从对象搜索请求中提取用于搜索目标对象的输入文本,作为待识别文本;在根据子类目预测结果确定待识别文本对应的目标类目之后,该方法还包括:根据输入文本对应的目标类目,查找与目标类目匹配的目标对象;响应于对象搜索请求,返回目标对象。
在一个实施例中,计算机设备从对象搜索请求中提取用于搜索目标对象的输入文本,通过本申请训练好的文本类目识别模型确定输入文本对应的目标类目,从属于目标类目的对象中,查找输入文本对应的目标对象,即与输入文本相对应的搜索结果。
本申请中训练好的文本类目识别模型适用于搜索场景,能够提高搜索场景中的搜索效率。
应该理解的是,虽然图2、7-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、7-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种文本类目识别模型的处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块902、主类目识别模块904、子类目识别模块906、损失构建模块908和训练模块910,其中:
获取模块902,用于获取样本文本及样本文本对应的标签数据,标签数据包括样本文本对应的主类目标签以及从属于主类目标签的子类目标签;
主类目识别模块904,用于通过文本类目识别模型中的主类目识别网络,对样本文本进行类目识别,获得样本文本对应的主类目预测结果;
子类目识别模块906,用于通过文本类目识别模型中的子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的子类目预测结果;
损失构建模块908,用于基于样本文本对应的主类目标签与主类目预测结果、样本文本对应的子类目标签与子类目预测结果,构建目标损失;
训练模块910,用于根据目标损失更新文本类目识别模型的模型参数后,返回获取样本文本及样本文本对应的标签数据的步骤继续训练,直至训练结束时,获得用于识别文本类目的文本类目识别模型。
在一个实施例中,主类目识别模块904还用于:通过主类目识别网络的语义编码层,对样本文本进行语义编码,获得语义编码向量;通过主类目识别网络的归一化层,将语义编码向量转换为对应预定主类目的预测概率,作为主类目预测结果。
在一个实施例中,子类目识别模块906还用于:通过子类目识别网络的信息融合层,基于主类目预测结果与样本文本对应的语义编码向量,确定样本文本对应的子类目语义向量;通过子类目识别网络的归一化层,将子类目语义向量转换为对应预定子类目的预测概率,作为子类目预测结果。
在一个实施例中,子类目识别模块906还用于:根据主类目预测结果确定候选主类目;融合各候选主类目对应的语义表征向量,得到主类目语义向量;将主类目语义向量与样本文本对应的语义编码向量拼接后,得到样本文本对应的子类目语义向量。
在一个实施例中,子类目识别模块906还用于:确定各候选主类目对应的语义表征向量;根据主类目预测结果,确定各候选主类目对应的预测概率;按各候选主类目对应的预测概率,对各候选主类目对应的语义表征向量加权求和,得到主类目语义向量。
在一个实施例中,子类目识别模块906还用于:通过子类目识别网络的归一化层,将样本文本对应的语义编码向量转换为对应预定子类目的预测概率;通过子类目识别网络的信息修正层,根据主类目预测结果中各预定主类目对应的预测概率,对从属于相应预定主类目的预定子类目所对应的预测概率进行调整,将调整后的对应的预定子类目的预测概率,作为子类目预测结果。
在一个实施例中,损失构建模块908还用于:基于样本文本对应的主类目标签与主类目预测结果,构建主类目分类损失,基于样本文本对应的子类目标签与子类目预测结果,构建子类目分类损失;将主类目分类损失与子类目分类损失融合后,得到目标损失。
在一个实施例中,损失构建模块908还用于:基于样本文本对应的主类目标签与主类目预测结果,构建主类目分类损失,基于样本文本对应的子类目标签与子类目预测结果,构建子类目分类损失;从主类目预测结果中,提取主类目标签对应的预测概率,从子类目预测结果中,提取子类目标签对应的预测概率,根据主类目标签对应的预测概率与子类目标签对应的预测概率,构建合页损失;将主类目分类损失、子类目分类损失与合页损失融合后,得到目标损失,合页损失用于使得更新后的文本类目识别模型所输出的主类目预测结果中,属于各预定子类目的预测概率小于所从属的预定主类目的所对应的预测概率。
在一个实施例中,从属于主类目标签的子类目标签包括从属于主类目标签的第一子类目标签以及从属于第一子类目标签的第二子类目标签;子类目识别模块906还用于:通过文本类目识别模型中与主类目识别网络相连接的第一子类目识别网络,基于主类目预测结果对样本文本进行类目识别,获得样本文本对应的第一子类目预测结果;通过文本类目识别模型中与第一子类目识别网络相连接的第二子类目识别网络,基于第一子类目预测结果对样本文本进行类目识别,获得样本文本对应的第二子类目预测结果;损失构建模块908还用于:基于样本文本对应的主类目标签与主类目预测结果、样本文本对应的第一子类目标签与第一子类目预测结果、样本文本对应的第二子类目标签与第二子类目预测结果,构建目标损失。
在一个实施例中,文本类目识别模型的处理装置还包括输入模块和确定模块,获取模块902还用于:获取待识别文本;输入模块用于:将待识别文本输入训练好的文本类目识别模型;主类目识别模块904还用于:通过训练好的文本类目识别模型中的主类目识别网络,对待识别文本进行类目识别,获得待识别文本对应的主类目预测结果;子类目识别模块906还用于:通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果对待识别文本进行类目识别,获得待识别文本对应的子类目预测结果;确定模块用于:根据子类目预测结果确定待识别文本对应的主类目和/或子类目。
关于文本类目识别模型的处理装置的具体限定可以参见上文中对于文本类目识别模型的处理方法的限定,在此不再赘述。上述文本类目识别模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述文本类目识别模型的处理装置中,通过文本类目识别模型中的主类目识别网络,获得样本文本对应的主类目预测结果,由于类目体系越上层,其对应的样本数据量越多,分类难度越低,往往获得的主类目预测结果的准确性更高,那么,文本类目识别模型中的子类目识别网络在预测子类目时,使用主类目预测结果作为先验知识,对样本文本进行预测得到的子类目预测结果准确性就更高。继而,基于样本文本对应的主类目标签与主类目预测结果,以及样本文本对应的从属于主类目标签的子类目标签与子类目预测结果构建目标损失,根据目标损失训练得到的文本类目识别模型识别文本的类目的准确性就更高。也就说,利用高准确度的上层类目的预测结果作为先验知识,影响下层类目的预测结果,从而提高文本类目识别模型对文本多层级分类的准确度。
在一个实施例中,如图10所示,提供了一种文本的类目识别装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1002、主类目识别模块1004、子类目识别模块1006和确定模块1008,其中:
获取模块1002,用于获取待识别文本;
主类目识别模块1004,用于通过训练好的文本类目识别模型中的主类目识别网络,对待识别文本进行类目识别,获得待识别文本对应的主类目预测结果;
子类目识别模块1006,用于通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果对待识别文本进行类目识别,获得待识别文本对应的子类目预测结果;
确定模块1008,用于根据子类目预测结果确定待识别文本对应的目标类目,目标类目包括主类目和子类目中的至少一种。
在一个实施例中,获取模块1002,还用于:获取上传的目标视频;提取目标视频对应的视频标题文本,作为待识别文本;文本的类目识别装置还包括生成模块,生成模块用于:根据视频标题文本对应的目标类目,生成目标视频对应的视频语义特征。
在一个实施例中,获取模块1002,还用于:获取对象搜索请求;从对象搜索请求中提取用于搜索目标对象的输入文本,作为待识别文本;文本的类目识别装置还包括查找模块和返回模块,生成模块用于:根据输入文本对应的目标类目,查找与目标类目匹配的目标对象;返回模块用于:响应于对象搜索请求,返回目标对象。
关于文本的类目识别装置的具体限定可以参见上文中对于文本的类目识别方法的限定,在此不再赘述。上述文本的类目识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述文本的类目识别装置中,通过训练好的文本类目识别模型中的主类目识别网络,获得待识别文本对应的主类目预测结果,通过训练好的文本类目识别模型中的子类目识别网络,基于主类目预测结果,获得待识别文本对应的子类目预测结果,根据子类目预测结果确定待识别文本对应的目标类目,由于训练好的文本类目识别模型对文本进行分类时,利用高准确度的上层类目的预测结果作为先验知识,影响下层类目的预测结果,因此能够提高文本多层级分类的准确度。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本类目识别模型的处理数据和/或图像生成数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本类目识别模型的处理方法和/或文本的类目识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,也可以是人脸采集设备,其内部结构图可以如图12所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口和图像采集装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本类目识别模型的处理方法和/或文本的类目识别方法。
本领域技术人员可以理解,图11和图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种文本类目识别模型的处理方法,其特征在于,所述方法包括:
获取样本文本及所述样本文本对应的标签数据,所述标签数据包括所述样本文本对应的主类目标签以及从属于所述主类目标签的子类目标签;
通过文本类目识别模型中的主类目识别网络,对所述样本文本进行类目识别,获得所述样本文本对应的主类目预测结果;
通过所述文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的子类目预测结果;
基于所述样本文本对应的主类目标签与所述主类目预测结果、所述样本文本对应的子类目标签与所述子类目预测结果,构建目标损失;
根据所述目标损失更新所述文本类目识别模型的模型参数后,返回所述获取样本文本及所述样本文本对应的标签数据的步骤继续训练,直至训练结束时,获得用于识别文本类目的文本类目识别模型。
2.根据权利要求1所述的方法,其特征在于,所述通过文本类目识别模型中的主类目识别网络,对所述样本文本进行类目识别,获得所述样本文本对应的主类目预测结果,包括:
通过所述主类目识别网络的语义编码层,对所述样本文本进行语义编码,获得语义编码向量;
通过所述主类目识别网络的归一化层,将所述语义编码向量转换为对应预定主类目的预测概率,作为所述主类目预测结果。
3.根据权利要求1所述的方法,其特征在于,所述通过所述文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的子类目预测结果,包括:
通过所述子类目识别网络的信息融合层,基于所述主类目预测结果与所述样本文本对应的语义编码向量,确定所述样本文本对应的子类目语义向量;
通过所述子类目识别网络的归一化层,将所述子类目语义向量转换为对应预定子类目的预测概率,作为所述子类目预测结果。
4.根据权利要求3所述的方法,其特征在于,所述基于所述主类目预测结果与所述样本文本对应的语义编码向量,确定所述样本文本对应的子类目语义向量,包括:
根据所述主类目预测结果确定候选主类目;
融合各所述候选主类目对应的语义表征向量,得到主类目语义向量;
将所述主类目语义向量与所述样本文本对应的语义编码向量拼接后,得到所述样本文本对应的子类目语义向量。
5.根据权利要求4所述的方法,其特征在于,所述融合各所述候选主类目对应的语义表征向量,得到主类目语义向量,包括:
确定各所述候选主类目对应的语义表征向量;
根据所述主类目预测结果,确定各所述候选主类目对应的预测概率;
按各所述候选主类目对应的预测概率,对各所述候选主类目对应的语义表征向量加权求和,得到所述主类目语义向量。
6.根据权利要求1所述的方法,其特征在于,所述通过所述文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的子类目预测结果,包括:
通过所述子类目识别网络的归一化层,将所述样本文本对应的语义编码向量转换为对应预定子类目的预测概率;
通过所述子类目识别网络的信息修正层,根据所述主类目预测结果中各预定主类目对应的预测概率,对从属于相应预定主类目的预定子类目所对应的预测概率进行调整,将调整后的对应的预定子类目的预测概率,作为所述子类目预测结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述样本文本对应的主类目标签与所述主类目预测结果、所述样本文本对应的子类目标签与所述子类目预测结果,构建目标损失,包括:
基于所述样本文本对应的主类目标签与所述主类目预测结果,构建主类目分类损失,基于所述样本文本对应的子类目标签与所述子类目预测结果,构建子类目分类损失;
将所述主类目分类损失与所述子类目分类损失融合后,得到目标损失。
8.根据权利要求1所述的方法,其特征在于,所述基于所述样本文本对应的主类目标签与所述主类目预测结果、所述样本文本对应的子类目标签与所述子类目预测结果,构建目标损失,包括:
基于所述样本文本对应的主类目标签与所述主类目预测结果,构建主类目分类损失,基于所述样本文本对应的子类目标签与所述子类目预测结果,构建子类目分类损失;
从所述主类目预测结果中,提取所述主类目标签对应的预测概率,从所述子类目预测结果中,提取所述子类目标签对应的预测概率,根据所述主类目标签对应的预测概率与所述子类目标签对应的预测概率,构建合页损失;
将所述主类目分类损失、所述子类目分类损失与所述合页损失融合后,得到目标损失,所述合页损失用于使得更新后的文本类目识别模型所输出的主类目预测结果中,属于各预定子类目的预测概率小于所从属的预定主类目的所对应的预测概率。
9.根据权利要求1所述的方法,其特征在于,所述从属于所述主类目标签的子类目标签包括从属于所述主类目标签的第一子类目标签以及从属于所述第一子类目标签的第二子类目标签;
所述通过所述文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的子类目预测结果,包括:
通过所述文本类目识别模型中与所述主类目识别网络相连接的第一子类目识别网络,基于所述主类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的第一子类目预测结果;
通过所述文本类目识别模型中与所述第一子类目识别网络相连接的第二子类目识别网络,基于所述第一子类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的第二子类目预测结果;
所述基于所述样本文本对应的主类目标签与所述主类目预测结果、所述样本文本对应的子类目标签与所述子类目预测结果,构建目标损失,包括:
基于所述样本文本对应的主类目标签与所述主类目预测结果、所述样本文本对应的第一子类目标签与所述第一子类目预测结果、所述样本文本对应的第二子类目标签与所述第二子类目预测结果,构建所述目标损失。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述方法还包括:
获取待识别文本;
将所述待识别文本输入训练好的文本类目识别模型;
通过所述训练好的文本类目识别模型中的主类目识别网络,对所述待识别文本进行类目识别,获得所述待识别文本对应的主类目预测结果;
通过所述训练好的文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述待识别文本进行类目识别,获得所述待识别文本对应的子类目预测结果;
根据所述子类目预测结果确定所述待识别文本对应的主类目和/或子类目。
11.一种文本的类目识别方法,其特征在于,所述方法包括:
获取待识别文本;
通过训练好的文本类目识别模型中的主类目识别网络,对所述待识别文本进行类目识别,获得所述待识别文本对应的主类目预测结果;
通过所述训练好的文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述待识别文本进行类目识别,获得所述待识别文本对应的子类目预测结果;
根据所述子类目预测结果确定所述待识别文本对应的目标类目,所述目标类目包括主类目和子类目中的至少一种。
12.根据权利要求11所述的方法,其特征在于,所述获取待识别文本,包括:
获取上传的目标视频;
提取所述目标视频对应的视频标题文本,作为所述待识别文本;
在所述根据所述子类目预测结果确定所述待识别文本对应的目标类目之后,所述方法还包括:
根据所述视频标题文本对应的目标类目,生成所述目标视频对应的视频语义特征。
13.根据权利要求11所述的方法,其特征在于,所述获取待识别文本,包括:
获取对象搜索请求;
从所述对象搜索请求中提取用于搜索目标对象的输入文本,作为所述待识别文本;
在所述根据所述子类目预测结果确定所述待识别文本对应的目标类目之后,所述方法还包括:
根据所述输入文本对应的目标类目,查找与所述目标类目匹配的目标对象;
响应于所述对象搜索请求,返回所述目标对象。
14.一种文本类目识别模型的处理装置,其特征在于,所述装置包括:
获取模块,用于获取样本文本及所述样本文本对应的标签数据,所述标签数据包括所述样本文本对应的主类目标签以及从属于所述主类目标签的子类目标签;
主类目识别模块,用于通过文本类目识别模型中的主类目识别网络,对所述样本文本进行类目识别,获得所述样本文本对应的主类目预测结果;
子类目识别模块,用于通过所述文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述样本文本进行类目识别,获得所述样本文本对应的子类目预测结果;
损失构建模块,用于基于所述样本文本对应的主类目标签与所述主类目预测结果、所述样本文本对应的子类目标签与所述子类目预测结果,构建目标损失;
训练模块,用于根据所述目标损失更新所述文本类目识别模型的模型参数后,返回所述获取样本文本及所述样本文本对应的标签数据的步骤继续训练,直至训练结束时,获得用于识别文本类目的文本类目识别模型。
15.一种文本的类目识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别文本;
主类目识别模块,用于通过训练好的文本类目识别模型中的主类目识别网络,对所述待识别文本进行类目识别,获得所述待识别文本对应的主类目预测结果;
子类目识别模块,用于通过所述训练好的文本类目识别模型中的子类目识别网络,基于所述主类目预测结果对所述待识别文本进行类目识别,获得所述待识别文本对应的子类目预测结果;
确定模块,用于根据所述子类目预测结果确定所述待识别文本对应的目标类目,所述目标类目包括主类目和子类目中的至少一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912638.2A CN114357151A (zh) | 2021-08-10 | 2021-08-10 | 文本类目识别模型的处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912638.2A CN114357151A (zh) | 2021-08-10 | 2021-08-10 | 文本类目识别模型的处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114357151A true CN114357151A (zh) | 2022-04-15 |
Family
ID=81096199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110912638.2A Pending CN114357151A (zh) | 2021-08-10 | 2021-08-10 | 文本类目识别模型的处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357151A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114706987A (zh) * | 2022-06-06 | 2022-07-05 | 腾讯科技(深圳)有限公司 | 文本类目预测方法、装置、设备、存储介质和程序产品 |
CN114860892A (zh) * | 2022-07-06 | 2022-08-05 | 腾讯科技(深圳)有限公司 | 层次类目预测方法、装置、设备和介质 |
CN115599921A (zh) * | 2022-11-28 | 2023-01-13 | 腾讯科技(深圳)有限公司(Cn) | 文本分类、文本分类模型训练方法、装置和存储介质 |
-
2021
- 2021-08-10 CN CN202110912638.2A patent/CN114357151A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114706987A (zh) * | 2022-06-06 | 2022-07-05 | 腾讯科技(深圳)有限公司 | 文本类目预测方法、装置、设备、存储介质和程序产品 |
CN114706987B (zh) * | 2022-06-06 | 2022-08-19 | 腾讯科技(深圳)有限公司 | 文本类目预测方法、装置、设备、存储介质和程序产品 |
CN114860892A (zh) * | 2022-07-06 | 2022-08-05 | 腾讯科技(深圳)有限公司 | 层次类目预测方法、装置、设备和介质 |
CN114860892B (zh) * | 2022-07-06 | 2022-09-06 | 腾讯科技(深圳)有限公司 | 层次类目预测方法、装置、设备和介质 |
CN115599921A (zh) * | 2022-11-28 | 2023-01-13 | 腾讯科技(深圳)有限公司(Cn) | 文本分类、文本分类模型训练方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN111737474B (zh) | 业务模型的训练和确定文本分类类别的方法及装置 | |
CN110826328A (zh) | 关键词提取方法、装置、存储介质和计算机设备 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN114357151A (zh) | 文本类目识别模型的处理方法、装置、设备及存储介质 | |
CN111667022A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN114528844A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
JP6738769B2 (ja) | 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム | |
JP6848091B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN113919344A (zh) | 文本处理方法和装置 | |
CN113392651A (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN112988970A (zh) | 一种服务于智能问答***的文本匹配算法 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN113011172A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN112508177A (zh) | 一种网络结构搜索方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |