CN115481255A - 一种多标签文本分类方法、装置、电子设备及存储介质 - Google Patents
一种多标签文本分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115481255A CN115481255A CN202211257616.8A CN202211257616A CN115481255A CN 115481255 A CN115481255 A CN 115481255A CN 202211257616 A CN202211257616 A CN 202211257616A CN 115481255 A CN115481255 A CN 115481255A
- Authority
- CN
- China
- Prior art keywords
- text
- category
- keyword
- classified
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000013145 classification model Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 61
- 230000011218 segmentation Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 239000003245 coal Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开一种多标签文本分类方法、装置、电子设备及存储介质。该方法包括:响应于多标签文本分类指令,获取待分类文本以及已训练完成的基于预训练语言模型进行微调得到的多标签文本分类模型;在待分类文本的长度超过预设长度阈值的情况下,对待分类文本进行句子划分,并基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,得到至少两个待分类子文本;针对该至少两个待分类子文本中的每个待分类子文本,将待分类子文本输入到多标签文本分类模型,得到待分类子文本的至少一个类别;将得到的各待分类子文本的至少一个类别的并集,作为待分类文本的类别。上述技术方案,可以实现长文本的多标签分类。
Description
技术领域
本发明实施例涉及自然语言处理领域,尤其涉及一种多标签文本分类方法、装置、电子设备及存储介质。
背景技术
多标签文本分类是自然语言处理领域下的一个常见任务,其在预设的类别下,给出待分类文本所属的至少一个类别。
但是,目前主流采用的多标签文本分类方案的适用范围受限,有待改进。
发明内容
本发明实施例提供一种多标签文本分类方法、装置、电子设备及存储介质,解除了对于待分类文本的长度的限制,可以适用于长文本的多标签分类。
根据本发明的一方面,提供了一种多标签文本分类方法,可以包括:
响应于多标签文本分类指令,获取待分类文本及已训练完成的多标签文本分类模型,其中,多标签文本分类模型基于预训练语言模型进行微调得到;
在待分类文本的长度超过预设长度阈值的情况下,对待分类文本进行句子划分,并基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,得到至少两个待分类子文本;
针对至少两个待分类子文本中的每个待分类子文本,将待分类子文本输入到多标签文本分类模型,得到待分类子文本的至少一个类别;
将得到的各待分类子文本的至少一个类别的并集,作为待分类文本的类别。
根据本发明的另一方面,提供了一种多标签文本分类装置,可以包括:
模型获取模块,用于响应于多标签文本分类指令,获取待分类文本以及已训练完成的多标签文本分类模型,其中,多标签文本分类模型基于预训练语言模型进行微调得到;
文本切分模块,用于在待分类文本的长度超过预设长度阈值的情况下,对待分类文本进行句子划分,并基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,得到至少两个待分类子文本;
子文本分类模块,用于针对至少两个待分类子文本中的每个待分类子文本,将待分类子文本输入到多标签文本分类模型中,得到待分类子文本的至少一个类别;
文本分类模块,用于将得到的各个待分类子文本的至少一个类别的并集,作为待分类文本的类别。
根据本发明的另一方面,提供了一种电子设备,可以包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行时实现本发明任意实施例所提供的多标签文本分类方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令用于使处理器执行时实现本发明任意实施例所提供的多标签文本分类方法。
本发明实施例的技术方案,通过响应于多标签文本分类指令,获取待分类文本及已训练完成的通过基于预训练语言模型进行微调得到的多标签文本分类模型;考虑到预训练语言模型在文本的长度方面有限制,因此在待分类文本的长度超过预设长度阈值的情况下,可以对待分类文本进行句子划分,然后基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,从而得到至少两个长度适中的待分类子文本;进而,针对至少两个待分类子文本中的每个待分类子文本,由于该待分类子文本的长度已满足相关要求,因此可以将其输入到多标签文本分类模型中,得到其的至少一个类别;由于各个待分类子文本均是待分类文本中的一部分,因此可以将得到的各个待分类子文本的至少一个类别的并集,作为待分类文本的类别。上述技术方案,可以实现长文本的多标签分类。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或是重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例提供的一种多标签文本分类方法的流程图;
图2是根据本发明实施例提供的另一种多标签文本分类方法的流程图;
图3是根据本发明实施例提供的另一种多标签文本分类方法的流程图;
图4是根据本发明实施例提供的另一种多标签文本分类方法中可选示例的流程图;
图5是根据本发明实施例提供的一种多标签文本分类装置的结构框图;
图6是实现本发明实施例的多标签文本分类方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似,在此不再赘述。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是本发明实施例中所提供的一种多标签文本分类方法的流程图。本实施例可适用于多标签文本分类的情况,尤其适用于长文本的多标签文本分类的情况。该方法可以由本发明实施例提供的多标签文本分类装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备上,该电子设备可以是各种用户终端或服务器。
参见图1,本发明实施例的方法具体包括如下步骤:
S110、响应于多标签文本分类指令,获取待分类文本以及已训练完成的多标签文本分类模型,其中,多标签文本分类模型基于预训练语言模型进行微调得到。
其中,多标签文本分类指令可以理解为用于对待分类文本进行多标签分类的指令。响应于该多标签文本分类指令,获取该待分类文本以及已训练完成的多标签文本分类模型,该多标签文本分类模型可以理解为用于对该待分类文本进行多标签分类的机器学习模型,其可以基于预训练语言模型加上微调的方式得到,可选的,该预训练语言模型可以是Albert预训练语言模型。
S120、在待分类文本的长度超过预设长度阈值的情况下,对待分类文本进行句子划分,并且基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,得到至少两个待分类子文本。
其中,考虑到预训练语言模型能较好的建模长文本的语义层面信息,但在文本的长度方面有限制,最大为512。为此,针对超过长度限制(即预设长度阈值)的待分类文本,可以采用滑动窗口切分待分类文本,从而将一个长文本(即待分类文本)处理成多个长度适中的待分类子文本。具体的,
在待分类文本的长度超过预设长度阈值的情况下,对待分类文本进行句子划分,例如,基于句子分隔符划分待分类文本,从而将待分类文本划分为一个一个的句子。获取预先设置的句子数量,基于滑窗大小为该句子数量的滑窗在句子划分后的待分类文本上进行滑动,由此实现待分类文本的切分,得到至少两个待分类子文本,至此可知,该至少两个待分类子文本中除了最后切分出的待分类子文本之外的各个待分类子文本中的句子的数量均为该滑窗大小。
S130、针对至少两个待分类子文本中的每个待分类子文本,将该待分类子文本输入到多标签文本分类模型中,得到该待分类子文本的至少一个类别。
在实际应用中,可选的,多标签文本分类模型可以基于TextCNN加全连接层构成,在将待分类子文本输入到该多标签文本分类模型后,全连接层可以将TextCNN输出映射到类别数个节点上,然后对每个节点的输出分别执行sigmoid,从而得到划分为每个类别的概率,进而得到该待分类子文本的至少一个类别。在实际应用中,可选的,该至少一个类别中的任意两个类别间可以彼此独立,也可以相互关联,这与实际应用场景有关,在此未做具体限定。
S140、将得到的各待分类子文本的至少一个类别的并集,作为待分类文本的类别。
其中,由于各个待分类子文本均是待分类文本中的一部分,因此可以将已得到的各个待分类子文本的至少一个类别的并集,作为待分类文本的类别。
在实际应用中,可选的,在待分类文本的长度未超过预设长度阈值的情况下,可以直接将该待分类文本输入到多标签文本分类模型中,并根据该多标签文本分类模型的输出结果,得到该待分类文本的类别。
本发明实施例的技术方案,通过响应于多标签文本分类指令,获取待分类文本及已训练完成的通过基于预训练语言模型进行微调得到的多标签文本分类模型;考虑到预训练语言模型在文本的长度方面有限制,因此在待分类文本的长度超过预设长度阈值的情况下,可以对待分类文本进行句子划分,然后基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,从而得到至少两个长度适中的待分类子文本;进而,针对至少两个待分类子文本中的每个待分类子文本,由于该待分类子文本的长度已满足相关要求,因此可以将其输入到多标签文本分类模型中,得到其的至少一个类别;由于各个待分类子文本均是待分类文本中的一部分,因此可以将得到的各个待分类子文本的至少一个类别的并集,作为待分类文本的类别。上述技术方案,可以实现长文本的多标签分类。
一种可选的技术方案,上述多标签文本分类方法,还可包括:获取已训练完成的标题首段分类器,及从待分类文本中提取出主体信息,其中,主体信息包括文本标题和/或文本首段;将主体信息输入到分类器,得到主体信息的至少一个类别;将得到的各个待分类子文本的至少一个类别的并集,作为待分类文本的类别,包括:将得到的各个待分类子文本的至少一个类别以及主体信息的至少一个类别的并集,作为待分类文本的类别。
其中,考虑到文本撰写特点,待分类文本中的文本标题和/或文本首段可以涵盖待分类文本中的主体信息,而待分类文本中的后续内容可以认为是在主体信息的基础上进行补充。因此,可以预先训练一个可用于实现主体信息即文本标题和/或文本首段分类的标题首段分类器,然后在多标签文本分类过程中,将从待分类文本中提取的主体信息输入到该标题首段分类器中,得到该主体信息的至少一个类别;在此基础上,在确定待分类文本的类别时,可综合考虑得到的各个待分类子文本的至少一个类别及该主体信息的至少一个类别,由此提高了待分类文本的类别确定的准确性。实际应用中,可选的,该标题首段分类器可以基于模型的方法实现,也可以基于关键词的方法实现,在此未做具体限定。针对前者,在类别标注阶段,可以基于预先构建得到类别-关键词集进行标注,该类别-关键词集的构建过程将在下文中介绍,在此不再赘述。
图2是本发明实施例中提供的另一种多标签文本分类方法的流程图。本实施例以上述各技术方案为基础进行优化。本实施例中,可选的,在获取待分类文本之后,上述多标签文本分类方法,还可以包括:获取预先构建得到的词典,其中,词典包括类别-关键词词典、关键词-关键词权重词典以及类别-类别阈值词典;基于类别-关键词词典,从待分类文本中提取出至少一个第一关键词,并分别得到至少一个第一关键词中的每个第一关键词所属的类别;针对至少一个第一关键词中的每个第一关键词,基于关键词-关键词权重词典,确定第一关键词的关键词权重;针对得到的各个第一关键词所属的类别中的每个类别,根据至少一个第一关键词中属于类别的各个第一关键词的关键词权重及类别-类别阈值词典,确定待分类文本是否可被划分到类别下;将得到的各个待分类子文本的至少一个类别的并集,作为待分类文本的类别,可包括:根据得到的各个待分类子文本的至少一个类别的并集,以及,确定出的划分结果,确定待分类文本的类别。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图2,本实施例的方法具体可以包括如下步骤:
S210、响应于多标签文本分类指令,获取待分类文本以及已训练完成的多标签文本分类模型,其中,多标签文本分类模型基于预训练语言模型进行微调得到。
S220、获取预先构建得到的词典,其中,词典包括类别-关键词词典、关键词-关键词权重词典以及类别-类别阈值词典。
其中,考虑到预训练语言模型建模时更关注深层语义信息,其与分类算法更关注的浅层语义信息存在一定偏差,这使得单独基于预训练语言模型进行多标签文本分类时,有可能存在类别漏召回的情况,因此,为了提高多标签文本分类的准确性,在预训练语言模型的基础上增加基于加权关键词的分类过程。
具体的,获取预先构建得到的词典,该词典包括类别-关键词词典、关键词-关键词权重词典以及类别-类别阈值词典。其中,类别-关键词词典可用于表示各个类别下分别具有的关键词;关键词-关键词权重词典可用于表示各个关键词分别具有的权重,在实际应用中,可选的,在同一关键词可能归属在至少两个类别的情况下,考虑到该关键词在至少两个类别中的不同类别下的关键词权重有可能存在差别,因此该关键词-关键词权重词典也可以是类别-关键词-关键词权重词典;类别-类别阈值词典可用于表示各个类别分别具有的阈值。
S230、基于类别-关键词词典,从待分类文本中提取出至少一个第一关键词,并分别得到至少一个第一关键词中的每个第一关键词所属的类别。
其中,基于类别-关键词词典中的全部关键词,在待分类文本中进行搜索,将待分类文本中的与全部关键词中的任一关键词匹配的关键词作为第一关键词,由此得到至少一个第一关键词。进而,基于类别-关键词词典,可以确定该至少一个第一关键词中的每个第一关键词所属的类别。
S240、针对至少一个第一关键词中的每个第一关键词,基于关键词-关键词权重词典,确定第一关键词的关键词权重。
其中,这里依然针对每个第一关键词,基于关键词-关键词权重词典,确定该第一关键词的关键词权重。在此基础上,可选的,在关键词-关键词权重词典是类别-关键词-关键词权重词典的情况下,可以结合该第一关键词所属的类别,确定该第一关键词的关键词权重。
S250、针对得到的各个第一关键词所属的类别中的每个类别,根据至少一个第一关键词中属于类别的各个第一关键词的关键词权重以及类别-类别阈值词典,确定待分类文本是否可被划分到类别下。
其中,示例性的,假设从待分类文本中提取出5个第一关键词(如A、B、C、D和E),其中的A、B和C属于X类别,D和E属于Y类别。在此基础上,针对X类别,可以根据X类别下的A、B和C这三者各自的关键词权重之和是否超过X类别的类别阈值,确定是否将待分类文本划分到X类别下;类似的,针对Y类别,可以根据Y类别下的D和E这二者各自的关键词权重之和是否超过Y类别的类别阈值,确定是否将待分类文本划分到Y类别下。
S260、在待分类文本的长度超过预设长度阈值的情况下,对待分类文本进行句子划分,并且基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,得到至少两个待分类子文本。
S270、针对至少两个待分类子文本中的每个待分类子文本,将该待分类子文本输入到多标签文本分类模型中,得到该待分类子文本的至少一个类别。
S280、根据得到的各个待分类子文本的至少一个类别的并集,以及,确定出的划分结果,确定待分类文本的类别。
其中,上述的S220-S250基于加权关键词实现了待分类文本的多标签文本分类过程。在此基础上,为了提高类别召回率,在最终确定待分类文本的类别时,可以综合考虑得到的各个待分类子文本的至少一个类别的并集及确定出的划分结果(即基于S220-S250实现的分类结果),即在多标签文本分类过程中,综合理解深层语义信息和浅层语义信息,由此保证了多标签文本分类的准确性。
本发明实施例的技术方案,通过类别-关键词词典、关键词-关键词权重词典以及类别-类别阈值词典这三个词典相互配合,在预训练语言模型的基础上增加基于加权关键词的多标签文本分类过程,由此提高了待分类文本的类别召回率。
一种可选的技术方案,考虑到不同类别对应的关键词数量和关键词权重有可能存在差异,因此可以为不同类别赋予相应的类别阈值。在此基础上,类别-类别阈值词典可通过如下步骤预先构建得到:获取预先构建得到的类别-关键词词典和关键词-关键词权重词典;针对类别-关键词词典中的每个类别及全部关键词,根据类别-关键词词典确定全部关键词中属于类别的至少一个第二关键词;根据关键词-关键词权重词典得到至少一个第二关键词中的每个第二关键词的关键词权重,并根据预设划分比例及得到的各个第二关键词的关键词权重之和确定类别的类别阈值;根据得到的各个类别的类别阈值,构建出类别-类别阈值词典。示例性的,假设类别-关键词词典是X类别-A,X类别-B,X类别-C,Y类别-D以及Y类别-E,针对X类别,确定全部关键词(即A、B、C、D和E)中属于X类别的至少一个第二关键词(即A、B和C),并基于关键词-关键词权重词典分别得到A、B和C的关键词权重,进而将这些关键词权重之和乘以预设划分比例,得到X类别的类别阈值,例如这些关键词权重之和是10,并且预设划分比例是20%(即取4/5节点作为X类别的类别阈值),那么X类别的类比阈值是2(10*20%)。Y类别的类别阈值的得到过程类似,在此不再赘述。假设Y类别的类别阈值是3,由此构建得到的类别-类别阈值词典可以表示为X类别-2以及Y类别-3。上述技术方案,实现了类别-类别阈值词典的有效构建。
另一种可选的技术方案,考虑到在同一类别下的不同关键词对于该类别的重要程度可能存在差异,因此可以为这些关键词分别赋予相应的关键词权重。在此基础上,关键词-关键词权重词典可通过如下步骤预先构建得到:获取至少一个样本文本及预先构建得到的类别-关键词词典,并针对至少一个样本文本中的每个样本文本,获取预先为样本文本标注的用于表示样本文本的类别的真实标签;将类别-关键词词典中的每个关键词分别作为第三关键词,针对得到的每个第三关键词,根据类别-关键词词典确定第三关键词所属的类别;根据获取到的各个样本文本的真实标签,从至少一个样本文本中确定与第三关键词所属的类别对应的至少一个类别文本;根据第三关键词在至少一个类别文本中的第一出现概率,以及在至少一个样本文本中除至少一个类别文本之外的样本文本中的第二出现概率,得到第三关键词的关键词权重;根据得到的各个第三关键词的关键词权重,构建得到关键词-关键词权重词典。换言之,可以将词频-逆文本频率指数(Term Frequency-InverseDocument Frequency,TF-IDF)值作为关键词权重,其中的TF可以通过第一出现概率来表示,IDF可以通过第二出现概率来表示,然后将这二者的比值作为关键词权重。
示例性的,假设存在5个样本文本(如1-5),其中的1-3的真实标签是X标签,4-5的真实标签是Y标签。在此基础上,针对任一第三关键词,假设其所属的类别是X类别,那么1-3即为类别文本,确定该第三关键词在1-3中的第一出现概率及在4-5中的第二出现概率,进一步将这两个出现概率的比值作为该第三关键词的关键词权重。这样设置的原因在于,第一出现概率可以表示该第三关键词与其所属的类别同时出现的概率,该第一出现概率越大,这说明某样本文本中出现该第三关键词时,该样本文本属于X类别的可能性越大,即该第三关键词对X类别的贡献度较大;相应的,第二出现概率可以表示该第三关键词与其非所属的类别同时出现的概率,该第二出现概率越大,说明该第三关键词在很多类别下的样本文本中都有可能出现,即该第三关键词对X类别的贡献度较小,因此可以根据这两个出现概率确定该第三关键词的关键词权重。
又一种可选的技术方案,类别-关键词词典可通过如下步骤预先构建得到:获取至少一个样本文本,并针对至少一个样本文本中的每个样本文本,对样本文本进行分词,得到至少一个第四关键词,及获取预先为样本文本标注的用于表示样本文本的类别的真实标签;针对获取的各个样本文本的真实标签中的每个真实标签,从至少一个样本文本中确定具有真实标签的至少一个标签文本;针对至少一个第四关键词中的每个第四关键词,根据该第四关键词在至少一个标签文本中的第三出现概率以及在至少一个样本文本中的第四出现概率,得到第四关键词属于真实标签所对应的类别的可能性;根据第四关键词分别属于各个样本文本的真实标签中的每个真实标签所对应的类别的可能性,得到第四关键词所属的类别;根据得到的各个第四关键词所属的类别,构建出类别-关键词词典。
示例性的,针对已获取的5个样本文本(即1-5),假设1-2的真实标签是汽车,3-4的真实标签是美容护理并且5的真实标签是煤炭,以及对这5个样本文本分别进行分词后,一共得到10个第四关键词(即A、B、C、D、E、F、G、H、I和J)。这里以A这个第四关键词为例,针对汽车这个真实标签,此时1-2是标签文本,计算A在1-2中的第三出现概率以及在1-5中的第四出现概率,根据这两个出现概率得到A属于汽车所对应的类别的可能性。美容护理与煤炭的处理过程类似,在此不再赘述。至此,可以得到A分别属于这3个真实标签所对应的类别的可能性,从而可将可能性最大的类别作为A所属的类别。
在此基础上,可选的,考虑到很多分词工具的分词词库中并未包含新词,例如长词(如软件和信息技术和机器设备制造业等)、组合词(如三峡水库和医药生物)及新兴词汇(如花呗和微信等)等,这些新词在文本分类过程中的贡献度较大,而且这些分词工具容易将这些新词拆分或错分,从而影响到文本分类的准确性。为了解决上述问题,在此提出了下述的新词发现方案:在针对至少一个样本文本中的每个样本文本,对样本文本进行分词之前,上述多标签文本分类方法,还可包括:针对至少一个样本文本中的每个样本文本,基于左右信息熵算法,从样本文本中发现新词,并将新词添加到分词词库中;针对至少一个样本文本中的每个样本文本,对样本文本进行分词,得到至少一个第四关键词,可包括:针对至少一个样本文本中的每个样本文本,基于分词词库对样本文本进行分词,得到至少一个第四关键词。示例性的,针对已获取的5个样本文本(即1-5),基于左右信息熵算法分别在1-5中发现新词,然后将发现的这些新词添加到分词词库中,以便分词工具可以优先基于这些新词进行分词。进而,分别在1-5中进行分词,得到至少一个第四关键词。
图3是本发明实施例中提供的另一种多标签文本分类方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,多标签文本分类模型通过如下步骤预先训练得到:获取已训练完成的预训练语言模型及待训练的原始文本分类模型,基于预训练语言模型中的网络参数对原始文本分类模型中的网络参数进行初始化,得到初始化文本分类模型;获取多组训练样本,基于多组训练样本对初始化文本分类模型进行微调,得到多标签文本分类模型;其中,多组训练样本中的每组训练样本包括样本文本以及预先为样本文本标注的用于表示样本文本的类别的真实标签。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图3,本实施例的方法具体可以包括如下步骤:
S310、获取已训练完成的预训练语言模型以及待训练的原始文本分类模型,基于预训练语言模型中的网络参数对原始文本分类模型中的网络参数进行初始化,得到初始化文本分类模型。
S320、获取多组训练样本,基于多组训练样本对初始化文本分类模型进行微调,得到多标签文本分类模型,其中,多组训练样本中的每组训练样本包括样本文本以及预先为样本文本标注的用于表示样本文本的类别的真实标签。
S330、响应于多标签文本分类指令,获取待分类文本。
S340、在待分类文本的长度超过预设长度阈值的情况下,对待分类文本进行句子划分,并且基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,得到至少两个待分类子文本。
S350、针对至少两个待分类子文本中的每个待分类子文本,将该待分类子文本输入到多标签文本分类模型中,得到该待分类子文本的至少一个类别。
S360、将得到的各待分类子文本的至少一个类别的并集,作为待分类文本的类别。
本发明实施例的技术方案,通过预训练语言模型中的网络参数初始化原始文本分类模型中的网络参数,然后基于多组训练样本对初始化后得到的初始化文本分类模型进行微调,由此训练得到多标签文本分类模型。
一种可选的技术方案,在多标签文本分类任务中,考虑到真实标签的数量多、一个样本文本对应多个真实标签并且这些真实标签间可能并不独立等情况,文本标注难度相对较高。为了解决上述问题,在此提出了下述技术方案:多组训练样本可通过如下步骤预先得到:获取多个样本文本,及针对多个样本文本构建得到的类别-关键词集;针对类别-关键词集中全部关键词中的每个第五关键词以及多个样本文本中的每个样本文本,根据第五关键词在样本文本中的出现次数,确定是否将第五关键词在类别-关键词集中所对应的类别作为样本文本的参考标签,以得到文本-参考标签集;针对文本-参考标签集中的全部样本文本中的每个样本文本,根据针对样本文本所对应的至少一个参考标签的选择操作,确定至少一个参考标签中被选中的真实标签,以构建出文本-真实标签集;根据文本-真实标签集,得到多组训练样本。
其中,类别-关键词集可以是由标注人员针对多个样本文本预先构建得到,示例性的,针对该多个样本文本中的每个样本文本,标注人员确认该样本文本所属的类别,并从该样本文本中挑选出与该类别对应的关键词,由此构建得到类别-关键词集。在此基础上,为了更加形象地理解上述技术方案,下面结合具体示例对其进行示例性说明。示例性的,针对多个样本文本中的某个样本文本(例如1)以及类别-关键词集中的某个第五关键词(如H),确定H在1中的出现次数,然后根据该出现次数确定是否将H所对应的类别作为1的参考标签,例如在H出现在1中或是H在1中出现多次的情况下,将H所对应的类别作为1的参考标签。在基于上述示例对各个样本文本和各个第五关键词进行遍历后,即可构建得到文本-参考标签集。进一步,可以展示出该文本-参考标签集,那么针对该文本-参考标签集中的每个样本文本,标注人员可以从该样本文本所对应的至少一个参考标签中选择一个或多个,然后将标注人员选中的这些参考标签作为该样本文本的真实标签,从而构建出文本-真实标签集,完成文本标注过程。上述技术方案,文本-参考标签集的应用,有效减少了标注人员标注思考成本,可以高效高质的完成文本标注过程。
在此基础上,可选的,为了让文本-参考标签集尽可能接近文本-真实标签集,从而进一步降低标注人员的标注思考成本,在此提出了下述技术方案:在获取多个样本文本后,上述多标签文本分类方法,还包括:针对通过划分多个样本文本得到的至少两组样本文本中的当前组样本文本,将该当前组样本文本作为多个样本文本;在获取针对多个样本文本构建得到的类别-关键词集之后,上述多标签文本分类方法,还可包括:在已存在类别关键词集的情况下,将获取的和已存在的类别-关键词集进行合并,并将合并后得到的类别-关键词集作为当前应用的类别-关键词集;在构建得到文本-真实标签集之后,上述多标签文本分类方法,还包括:针对文本-真实标签集中的全部样本文本中的每个样本文本以及样本文本在全部真实标签中所具有的每个真实标签,从样本文本中抽取出与真实标签对应的第六关键词,并根据第六关键词和真实标签对类别-关键词集进行更新;在至少两组样本文本中存在当前组样本文本的下一组样本文本的情况下,将下一组样本文本更新为当前组样本文本,并重复执行将当前组样本文本作为多个样本文本的步骤。
示例性的,假设存在1000个样本文本,将其划分为10组,每组样本文本中包括100个样本文本。针对这10组样本文本中的第1组样本文本,基于上述阐述的用于实现文本-真实标签集构建的技术方案处理该第1组样本文本中的100个样本文本,从而得到这100个样本文本的文本-真实标签集。进而,针对这100个样本文本中的某个样本文本(如1)以及1所具有的各个真实标签(如M和N),从1中抽取出与M和N分别对应的第六关键词,例如基于TF-IDF算法进行第六关键词的抽取,并基于这样的抽取结果对针对这100个样本文本构建出的类别-关键词集进行更新,由此提高了类别-关键词集的准确性。
进一步,针对这10组样本文本中的第2组样本文本中的100个样本文本,获取针对该100个样本文本构建得到的类别-关键词集,并将该类别-关键词集与上述的更新后的类别-关键词集进行合并,从而在基于上述阐述的用于实现文本-真实标签集构建的技术方案处理该第2组样本文本过程中,可以应用合并后的类别-关键词集。进而,参照第1组样本文本中的100个样本文本的处理过程来继续更新类别-关键词集。第3组样本文本-第10组样本文本的处理过程与第2组样本文本类似,在此不再赘述。至此可知,随着类别-关键词集的不断更新,后续得到的文本-参考标签集越来越接近文本-真实标签集,通过上述的标签迭代标注方案,实现了逐渐减少标注人员的标注思考成本的效果。
为了从整体上更好的理解上述各技术方案的配合关系,下面结合具体示例对其进行示例性说明。示例性的,如图4所示,获取多个样本文本,并为这些样本文本进行文本标注,从而构成训练样本来训练得到多标签文本分类模型。进而,针对待分类文本,在该待分类文本是长文本的情况下,对该待分类文本进行滑窗,得到至少两个待分类子文本;在此基础上,基于标题首段分类器对该待分类文本中的文本标题和/或文本首段进行分类,得到至少一个类别;针对该至少两个待分类子文本中的每个待分类子文本,将该待分类子文本输入到该多标签文本分类模型中,得到至少一个类别,以及基于加权关键词对该待分类子文本进行处理,得到至少一个类别;进而,将这几个类别进行合并后输出,得到该待分类文本最终的类别,由此实现了长文本的多标签分类的效果。
图5为本发明实施例所提供的多标签文本分类装置的结构框图,该装置用于执行上述任意实施例所提供的多标签文本分类方法。该装置与上述各实施例的多标签文本分类方法属于同一个发明构思,在多标签文本分类装置的实施例中未详尽描述的细节内容,可以参考上述多标签文本分类方法的实施例。参见图5,该装置具体可包括:模型获取模块410、文本切分模块420、子文本分类模块430以及文本分类模块440。
其中,模型获取模块410,用于响应于多标签文本分类指令,获取待分类文本以及已训练完成的多标签文本分类模型,其中,多标签文本分类模型基于预训练语言模型进行微调得到;
文本切分模块420,用于在待分类文本的长度超过预设长度阈值的情况下,对待分类文本进行句子划分,并基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,得到至少两个待分类子文本;
子文本分类模块430,用于针对至少两个待分类子文本中的每个待分类子文本,将待分类子文本输入到多标签文本分类模型,得到待分类子文本的至少一个类别;
文本分类模块440,用于将得到的各待分类子文本的至少一个类别的并集,作为待分类文本的类别。
可选的,在上述装置的基础上,该装置还可以包括:
主体信息提取模块,用于获取已训练完成的标题首段分类器,及从待分类文本中提取出主体信息,其中,主体信息包括文本标题和/或文本首段;
主体信息分类模块,用于将主体信息输入到分类器,得到主体信息的至少一个类别;
文本分类模块440,具体用于:
将得到的各个待分类子文本的至少一个类别以及主体信息的至少一个类别的并集,作为待分类文本的类别。
可选的,上述多标签文本分类装置,还可以包括:
词典第一获取模块,用于在获取待分类文本后,获取预先构建得到的词典,其中,词典包括类别-关键词词典、关键词-关键词权重词典以及类别-类别阈值词典;
类别第一得到模块,用于基于类别-关键词词典,从待分类文本中提取至少一个第一关键词,并分别得到至少一个第一关键词中的每个第一关键词所属的类别;
关键词权重确定模块,用于针对至少一个第一关键词中的每个第一关键词,基于关键词-关键词权重词典,确定第一关键词的关键词权重;
文本划分模块,用于针对得到的各个第一关键词所属的类别中的每个类别,根据至少一个第一关键词中属于类别的各个第一关键词的关键词权重以及类别-类别阈值词典,确定待分类文本是否可被划分到类别下;
文本分类模块440,具体用于:
根据得到的各个待分类子文本的至少一个类别的并集,以及,确定出的划分结果,确定待分类文本的类别。
在此基础上,可选的,类别-类别阈值词典通过如下模块预先构建得到:
词典第二获取模块,用于获取预先构建得到的类别-关键词词典和关键词-关键词权重词典;
第二关键词确定模块,用于针对类别-关键词词典中的每个类别及全部关键词,根据类别-关键词词典确定全部关键词中属于类别的至少一个第二关键词;
类别阈值确定模块,用于根据关键词-关键词权重词典得到该至少一个第二关键词中的每个第二关键词的关键词权重,并根据预设划分比例及得到的各个第二关键词的关键词权重之和确定类别的类别阈值;
类别-类别阈值词典构建模块,用于根据得到的各个类别的类别阈值,构建得到类别-类别阈值词典。
再可选的,关键词-关键词权重词典通过如下模块预先构建得到:
真实标签第一获取模块,用于获取至少一个样本文本以及预先构建得到的类别-关键词词典,并且针对至少一个样本文本中的每个样本文本,获取预先为样本文本标注出的用于表示样本文本的类别的真实标签;
类别确定模块,用于将类别-关键词词典中的每个关键词分别作为第三关键词,针对得到的每个第三关键词,根据类别-关键词词典确定第三关键词所属的类别;
类别文本确定模块,用于根据获取到的各个样本文本的真实标签,从至少一个样本文本中确定与第三关键词所属的类别对应的至少一个类别文本;
关键词权重得到模块,用于根据第三关键词在至少一个类别文本中的第一出现概率,以及,在至少一个样本文本中除至少一个类别文本之外的样本文本中的第二出现概率,得到第三关键词的关键词权重;
关键词-关键词权重词典构建模块,用于根据得到的各个第三关键词的关键词权重,构建得到关键词-关键词权重词典。
另可选的,类别-关键词词典通过如下模块预先构建得到:
真实标签第二获取模块,用于获取至少一个样本文本,并且针对至少一个样本文本中的每个样本文本,对样本文本进行分词,得到至少一个第四关键词,及获取预先为样本文本标注的用于表示样本文本的类别的真实标签;
标签文本确定模块,用于针对获取到的各个样本文本的真实标签中的每个真实标签,从至少一个样本文本中确定具有真实标签的至少一个标签文本;
可能性得到模块,用于针对于至少一个第四关键词中的每个第四关键词,根据第四关键词在至少一个标签文本中的第三出现概率及在至少一个样本文本中的第四出现概率,得到第四关键词属于真实标签所对应的类别的可能性;
类别第二得到模块,用于根据第四关键词分别属于各样本文本的真实标签中的每个真实标签所对应的类别的可能性,得到第四关键词所属的类别;
类别-关键词词典构建模块,用于根据得到的各个第四关键词所属的类别,构建出类别-关键词词典。
可选的,在上述装置的基础上,该装置还可以包括:
新词添加模块,用于在针对至少一个样本文本中的每个样本文本,对样本文本进行分词之前,针对至少一个样本文本中的每个样本文本,基于左右信息熵算法,从样本文本中发现新词,并将新词添加到分词词库中;
真实标签第二获取模块,可以包括:
第四关键词得到单元,用于针对于至少一个样本文本中的每个样本文本,基于分词词库对样本文本进行分词,得到至少一个第四关键词。
可选的,多标签文本分类模型通过如下模块预先训练得到:
初始化文本分类模型得到模块,用于获取已训练完成的预训练语言模型以及待训练的原始文本分类模型,基于预训练语言模型中的网络参数对原始文本分类模型中的网络参数进行初始化,得到初始化文本分类模型;
多标签文本分类模型得到模块,用于获取多组训练样本,并基于多组训练样本对初始化文本分类模型进行微调,得到多标签文本分类模型;
其中,多组训练样本中的每组训练样本包括样本文本以及预先为样本文本标注的用于表示样本文本的类别的真实标签。
在此基础上,可选的,多组训练样本通过如下模块预先得到:
词典第三获取模块,用于获取多个样本文本,以及针对多个样本文本构建得到的类别-关键词集;
文本-参考标签集得到模块,用于针对类别-关键词集中全部关键词中的每个第五关键词及多个样本文本中的每个样本文本,根据第五关键词在样本文本中的出现次数,确定是否将第五关键词在类别-关键词集中所对应的类别作为样本文本的参考标签,以得到文本-参考标签集;
文本-真实标签集构建模块,用于针对文本-参考标签集中的全部样本文本中的每个样本文本,根据针对样本文本所对应的至少一个参考标签的选择操作,确定至少一个参考标签中被选中的真实标签,以构建得到文本-真实标签集;
训练样本得到模块,用于根据文本-真实标签集,得到多组训练样本。
可选的,在上述装置的基础上,多组训练样本还通过如下模块预先得到:
样本划分模块,用于在获取多个样本文本后,针对通过划分多个样本文本得到的至少两组样本文本中的当前组样本文本,将该当前组样本文本作为多个样本文本;
类别-关键词集得到模块,用于在获取针对多个样本文本构建得到的类别-关键词集后,在已存在类别关键词集的情况下,将获取的和已存在的类别-关键词集进行合并,并将合并后得到的类别-关键词集作为当前应用的类别-关键词集;
类别-关键词集更新模块,用于在构建得到文本-真实标签集之后,针对文本-真实标签集中的全部样本文本中的每个样本文本及样本文本在全部真实标签中所具有的每个真实标签,从样本文本中抽取出与真实标签对应的第六关键词,并根据第六关键词和真实标签对类别-关键词集进行更新;
样本文本更新模块,用于在至少两组样本文本中存在当前组样本文本的下一组样本文本的情况下,将下一组样本文本更新为当前组样本文本,重复执行将当前组样本文本作为多个样本文本的步骤。
本发明实施例所提供的多标签文本分类装置,通过模型获取模块响应于多标签文本分类指令,获取待分类文本及已训练完成的通过基于预训练语言模型进行微调后得到的多标签文本分类模型;考虑到预训练语言模型在文本的长度方面有限制,因此通过文本切分模块在待分类文本的长度超过预设长度阈值的情况下,可以对待分类文本进行句子划分,然后基于用于表示句子数量的滑窗大小,对句子划分后的待分类文本进行滑窗以切分待分类文本,从而得到至少两个长度适中的待分类子文本;进一步,通过子文本分类模块针对至少两个待分类子文本中的每个待分类子文本,由于该待分类子文本的长度已经满足相关要求,因此可以将其输入到多标签文本分类模型中,得到其的至少一个类别;由于各个待分类子文本均是待分类文本中的一部分,因此通过文本分类模块将得到的各待分类子文本的至少一个类别的并集,作为待分类文本的类别。上述装置,可以实现长文本的多标签分类。
本发明实施例所提供的多标签文本分类装置可执行本发明任意实施例所提供的多标签文本分类方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述多标签文本分类装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如多标签文本分类方法。
在一些实施例中,多标签文本分类方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的多标签文本分类方法的一个或多个步骤。备选地,在其他实施例中,处理器11可通过其他任何适当的方式(例如,借助于固件)而被配置为执行多标签文本分类方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、以及至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、以及该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或是其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行并且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的***和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (13)
1.一种多标签文本分类方法,其特征在于,包括:
响应于多标签文本分类指令,获取待分类文本及已训练完成的多标签文本分类模型,其中,所述多标签文本分类模型基于预训练语言模型进行微调得到;
在所述待分类文本的长度超过预设长度阈值的情况下,对所述待分类文本进行句子划分,并基于用于表示句子数量的滑窗大小,对句子划分后的所述待分类文本进行滑窗以切分所述待分类文本,得到至少两个待分类子文本;
针对所述至少两个待分类子文本中的每个待分类子文本,将所述待分类子文本输入到所述多标签文本分类模型,得到所述待分类子文本的至少一个类别;
将得到的各个所述待分类子文本的至少一个类别的并集,作为所述待分类文本的类别。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取已训练完成的标题首段分类器,以及从所述待分类文本中提取出主体信息,其中,所述主体信息包括文本标题和/或文本首段;
将所述主体信息输入到所述分类器,得到所述主体信息的至少一个类别;
所述将得到的各个所述待分类子文本的至少一个类别的并集,作为所述待分类文本的类别,包括:
将得到的各个所述待分类子文本的至少一个类别以及所述主体信息的至少一个类别的并集,作为所述待分类文本的类别。
3.根据权利要求1所述的方法,其特征在于,在所述获取待分类文本之后,还包括:
获取预先构建得到的词典,其中,所述词典包括类别-关键词词典、关键词-关键词权重词典以及类别-类别阈值词典;
基于所述类别-关键词词典,从所述待分类文本中提取出至少一个第一关键词,并分别得到所述至少一个第一关键词中的每个第一关键词所属的类别;
针对所述至少一个第一关键词中的每个第一关键词,基于所述关键词-关键词权重词典,确定所述第一关键词的关键词权重;
针对得到的各个所述第一关键词所属的类别中的每个类别,根据所述至少一个第一关键词中属于所述类别的各个第一关键词的关键词权重以及所述类别-类别阈值词典,确定所述待分类文本是否可被划分到所述类别下;
所述将得到的各个所述待分类子文本的至少一个类别的并集,作为所述待分类文本的类别,包括:
根据得到的各个所述待分类子文本的至少一个类别的并集,以及,确定出的划分结果,确定所述待分类文本的类别。
4.根据权利要求3所述的方法,其特征在于,所述类别-类别阈值词典通过如下步骤预先构建得到:
获取预先构建得到的所述类别-关键词词典和所述关键词-关键词权重词典;
针对所述类别-关键词词典中的每个类别以及全部关键词,根据所述类别-关键词词典确定所述全部关键词中属于所述类别的至少一个第二关键词;
根据所述关键词-关键词权重词典得到所述至少一个第二关键词中的每个第二关键词的关键词权重,并根据预设划分比例及得到的各个所述第二关键词的关键词权重之和确定所述类别的类别阈值;
根据得到的各个所述类别的类别阈值,构建得到所述类别-类别阈值词典。
5.根据权利要求3所述的方法,其特征在于,所述关键词-关键词权重词典通过如下步骤预先构建得到:
获取至少一个样本文本以及预先构建得到的所述类别-关键词词典,并针对所述至少一个样本文本中的每个样本文本,获取预先为所述样本文本标注出的用于表示所述样本文本的类别的真实标签;
将所述类别-关键词词典中的每个关键词分别作为第三关键词,针对得到的每个第三关键词,根据所述类别-关键词词典确定所述第三关键词所属的类别;
根据获取到的各个所述样本文本的真实标签,从所述至少一个样本文本中确定与所述第三关键词所属的类别对应的至少一个类别文本;
根据所述第三关键词在所述至少一个类别文本中的第一出现概率,以及,在所述至少一个样本文本中除所述至少一个类别文本之外的样本文本中的第二出现概率,得到所述第三关键词的关键词权重;
根据得到的各个所述第三关键词的关键词权重,构建得到所述关键词-关键词权重词典。
6.根据权利要求3所述的方法,其特征在于,所述类别-关键词词典通过如下步骤预先构建得到:
获取至少一个样本文本,并针对所述至少一个样本文本中的每个样本文本,对所述样本文本进行分词,得到至少一个第四关键词,及获取预先为所述样本文本标注的用于表示所述样本文本的类别的真实标签;
针对获取的各个所述样本文本的真实标签中的每个真实标签,从所述至少一个样本文本中确定具有所述真实标签的至少一个标签文本;
针对所述至少一个第四关键词中的每个第四关键词,根据所述第四关键词在所述至少一个标签文本中的第三出现概率以及在所述至少一个样本文本中的第四出现概率,得到所述第四关键词属于所述真实标签所对应的类别的可能性;
根据所述第四关键词分别属于所述各个所述样本文本的真实标签中的每个真实标签所对应的类别的可能性,得到所述第四关键词所属的类别;
根据得到的各个所述第四关键词所属的类别,构建出所述类别-关键词词典。
7.根据权利要求6所述的方法,其特征在于,所述针对所述至少一个样本文本中的每个样本文本,对所述样本文本进行分词之前,还包括:
针对所述至少一个样本文本中的每个样本文本,基于左右信息熵算法,从所述样本文本中发现新词,并将所述新词添加到分词词库中;
所述针对所述至少一个样本文本中的每个样本文本,对所述样本文本进行分词,得到至少一个第四关键词,包括:
针对所述至少一个样本文本中的每个样本文本,基于所述分词词库对所述样本文本进行分词,得到至少一个第四关键词。
8.根据权利要求1所述的方法,其特征在于,所述多标签文本分类模型通过如下步骤预先训练得到:
获取已训练完成的所述预训练语言模型以及待训练的原始文本分类模型,基于所述预训练语言模型中的网络参数对所述原始文本分类模型中的网络参数进行初始化,得到初始化文本分类模型;
获取多组训练样本,并基于所述多组训练样本对所述初始化文本分类模型进行微调,得到所述多标签文本分类模型;
其中,所述多组训练样本中的每组训练样本包括样本文本以及预先为所述样本文本标注的用于表示所述样本文本的类别的真实标签。
9.根据权利要求8所述的方法,其特征在于,所述多组训练样本通过如下步骤预先得到:
获取多个样本文本,以及针对所述多个样本文本构建得到的类别-关键词集;
针对所述类别-关键词集中全部关键词中的每个第五关键词及所述多个样本文本中的每个样本文本,根据所述第五关键词在所述样本文本中的出现次数,确定是否将所述第五关键词在所述类别-关键词集中对应的类别作为所述样本文本的参考标签,以得到文本-参考标签集;
针对所述文本-参考标签集中的全部样本文本中的每个样本文本,根据针对所述样本文本所对应的至少一个参考标签的选择操作,确定所述至少一个参考标签中被选中的真实标签,以构建得到文本-真实标签集;
根据所述文本-真实标签集,得到所述多组训练样本。
10.根据权利要求9所述的方法,其特征在于,在所述获取多个样本文本之后,还包括:
针对通过划分所述多个样本文本得到的至少两组样本文本中的当前组样本文本,将所述当前组样本文本作为所述多个样本文本;
在所述获取针对所述多个样本文本构建得到的类别-关键词集之后,还包括:
在已存在类别关键词集的情况下,将获取的和已存在的类别-关键词集进行合并,并将合并后得到的类别-关键词集作为当前应用的类别-关键词集;
在所述构建得到文本-真实标签集之后,所述方法还包括:
针对所述文本-真实标签集中的全部样本文本中的每个样本文本以及所述样本文本在全部真实标签中所具有的每个真实标签,从所述样本文本中抽取出与所述真实标签对应的第六关键词,并根据所述第六关键词和所述真实标签对所述类别-关键词集进行更新;
在所述至少两组样本文本中存在所述当前组样本文本的下一组样本文本的情况下,将所述下一组样本文本更新为所述当前组样本文本,并重复执行所述将所述当前组样本文本作为所述多个样本文本的步骤。
11.一种多标签文本分类装置,其特征在于,包括:
模型获取模块,用于响应于多标签文本分类指令,获取待分类文本以及已训练完成的多标签文本分类模型,其中,所述多标签文本分类模型基于预训练语言模型进行微调得到;
文本切分模块,用于在所述待分类文本的长度超过预设长度阈值的情况下,对所述待分类文本进行句子划分,并且基于用于表示句子数量的滑窗大小,对句子划分后的所述待分类文本进行滑窗以切分所述待分类文本,得到至少两个待分类子文本;
子文本分类模块,用于针对所述至少两个待分类子文本中的每个待分类子文本,将所述待分类子文本输入到所述多标签文本分类模型,得到所述待分类子文本的至少一个类别;
文本分类模块,用于将得到的各所述待分类子文本的至少一个类别的并集,作为所述待分类文本的类别。
12.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-10中任一项所述的多标签文本分类方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现如权利要求1-10中任一所述的多标签文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211257616.8A CN115481255A (zh) | 2022-10-14 | 2022-10-14 | 一种多标签文本分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211257616.8A CN115481255A (zh) | 2022-10-14 | 2022-10-14 | 一种多标签文本分类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481255A true CN115481255A (zh) | 2022-12-16 |
Family
ID=84396496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211257616.8A Pending CN115481255A (zh) | 2022-10-14 | 2022-10-14 | 一种多标签文本分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481255A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964487A (zh) * | 2022-12-22 | 2023-04-14 | 南阳理工学院 | 基于自然语言的论文标签补充方法、装置及存储介质 |
-
2022
- 2022-10-14 CN CN202211257616.8A patent/CN115481255A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964487A (zh) * | 2022-12-22 | 2023-04-14 | 南阳理工学院 | 基于自然语言的论文标签补充方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112749344B (zh) | 信息推荐方法、装置、电子设备、存储介质及程序产品 | |
JP7334395B2 (ja) | ビデオ分類方法、装置、機器、および記憶媒体 | |
WO2022222300A1 (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN111078887B (zh) | 文本分类方法和装置 | |
CN112148881A (zh) | 用于输出信息的方法和装置 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN114970553B (zh) | 基于大规模无标注语料的情报分析方法、装置及电子设备 | |
CN112784734A (zh) | 一种视频识别方法、装置、电子设备和存储介质 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
CN115481255A (zh) | 一种多标签文本分类方法、装置、电子设备及存储介质 | |
CN112699237B (zh) | 标签确定方法、设备和存储介质 | |
CN115248890B (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
CN112948584B (zh) | 短文本分类方法、装置、设备以及存储介质 | |
CN114037059A (zh) | 预训练模型、模型的生成方法、数据处理方法及装置 | |
CN112906368B (zh) | 行业文本增量方法、相关装置及计算机程序产品 | |
CN112925912A (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN115952258A (zh) | 政务标签库的生成方法、政务文本的标签确定方法和装置 | |
CN116226533A (zh) | 基于关联性预测模型的新闻关联推荐方法、装置及介质 | |
CN113641724B (zh) | 知识标签挖掘方法、装置、电子设备及存储介质 | |
CN113204667B (zh) | 音频标注模型的训练与音频标注的方法、装置 | |
CN114443864A (zh) | 跨模态数据的匹配方法、装置及计算机程序产品 | |
CN114491030A (zh) | 技能标签的抽取、候选短语分类模型的训练方法及装置 | |
CN114416990A (zh) | 对象关系网络的构建方法、装置和电子设备 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |