CN113535960A - 一种文本分类方法、装置和设备 - Google Patents
一种文本分类方法、装置和设备 Download PDFInfo
- Publication number
- CN113535960A CN113535960A CN202110880080.4A CN202110880080A CN113535960A CN 113535960 A CN113535960 A CN 113535960A CN 202110880080 A CN202110880080 A CN 202110880080A CN 113535960 A CN113535960 A CN 113535960A
- Authority
- CN
- China
- Prior art keywords
- classification
- text
- word
- vector
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 231
- 238000013145 classification model Methods 0.000 claims abstract description 105
- 238000012549 training Methods 0.000 claims abstract description 58
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000010801 machine learning Methods 0.000 claims abstract description 13
- 238000003860 storage Methods 0.000 claims description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 26
- 230000000694 effects Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种文本分类方法、装置和设备,涉及人工智能技术领域,其中,该方法包括:获取待分类文本;对所述待分类文本进行预处理,得到目标词向量;根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果;其中,所述多个分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention‑GRU预先训练得到的用于进行文本分类的机器学习模型;对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别。在本说明书实施例中,通过多模型进行融合的方式可以有效提高分类结果的准确性。
Description
技术领域
本说明书实施例涉及人工智能技术领域,特别涉及一种文本分类方法、装置和设备。
背景技术
自然语言处理一直是人工智能领域的重要话题,利用自然语言处理技术可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作,并在各行各业得到充分的应用,但是人类语言的复杂性也给自然语言处理带来了重重困难。其中,长文本的智能解析就颇具挑战性,从纷繁多变、信息量胖砸的冗长文本中提取关键信息,一直是文本领域的难题。
现有技术中,通常是对文本进行分词后利用单一的模型识别文本的类别,该方式对简短的文本具有一定的效果,但是无法有效地从纷繁多变、信息量繁杂的冗长文本中提取关键信息,以深入分析文本内在结构和语义信息从而确定文本类别。由此可见,采用现有技术中的技术方案无法准确地对冗长文本进行分类。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书实施例提供了一种文本分类方法、装置和设备,以解决现有技术中无法准确地对冗长文本进行分类的问题。
本说明书实施例提供了一种文本分类方法,包括:获取待分类文本;对所述待分类文本进行预处理,得到目标词向量;根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果;其中,所述多个分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型;对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别。
本说明书实施例还提供了一种文本分类装置,包括:获取模块,用于获取待分类文本;预处理模块,用于对所述待分类文本进行预处理,得到目标词向量;确定模块,用于根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果;其中,所述多个分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型;融合模块,用于对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别。
本说明书实施例还提供了一种文本分类设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中任意一个方法实施例的步骤。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现本说明书实施例中任意一个方法实施例的步骤。
本说明书实施例提供了一种文本分类方法,可以通过对获取的待分类文本进行预处理,得到目标词向量,并根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果,其中,上述多个分类模型可以为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型。进一步的由于每个分类模型输出的分类结果均会存在差异,因此,为了提高分类结果的准确性,可以对各个分类模型对应的分类结果进行概率等权重融合,从而可以得到融合后的分类结果,进而可以确定出待分类文本的类别。通过多模型进行融合的方式可以有效提高分类结果的准确性,并有效解决单一模型深度复杂化,无法从冗长文本中提取关键信息以提高文本分类准确性的问题。
附图说明
此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,并不构成对本说明书实施例的限定。在附图中:
图1是根据本说明书实施例提供的文本分类方法的步骤示意图;
图2是根据本说明书实施例提供的文本分类装置的结构示意图;
图3是根据本说明书实施例提供的文本分类设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本说明书实施例的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书实施例,而并非以任何方式限制本说明书实施例的范围。相反,提供这些实施方式是为了使本说明书实施例公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本说明书实施例的实施方式可以实现为一种***、装置设备、方法或计算机程序产品。因此,本说明书实施例公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
虽然下文描述流程包括以特定顺序出现的多个操作,但是应该清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
请参阅图1,本实施方式可以提供一种文本分类方法。该文本分类方法可以用于准确地确定出待分类文本的类别。上述文本分类方法可以包括以下步骤。
S101:获取待分类文本。
在本实施方式中,可以获取待分类文本,上述待分类文本可以长文本,可以是一段话,也可以是一片完整的文本,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,获取待分类文本。的方式可以包括:从预设数据库中拉取得到,或者,接收用户输入的待分类文本。当然可以理解的是,还可以采用其它可能的方式获取上述待分类文本,例如,在网页中按照一定的查找条件搜索待分类文本,具体的可以根据实际情况确定,本说明书实施例对此不作限定。其中,上述预设数据库可以为存储实时获取的文本的数据库。
S102:对待分类文本进行预处理,得到目标词向量。
在本实施方式中,由于初始获取的待分类文本可能存在形式问题,为了能够更好地表征待分类文本,因此,可以对待分类文本进行预处理,得到目标词向量。其中,上述目标词向量中可以包含多个词。
在本实施方式中,上述预处理可以包括:数据清洗、截断补齐、分词、去停用词等。当然,预处理的方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,上述目标词向量的维数可以是预先设定的,维数可以为大于0的正整数,例如:100、300、1000等。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
S103:根据目标词向量和多个分类模型,确定各个分类模型对应的分类结果;其中,多个分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型。
在本实施方式中,可以根据上述目标词向量和多个分类模型,确定各个分类模型对应的分类结果,其中,上述多个分类模型可以为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型。
在本实施方式中,将目标词向量输入各个分类模型中,每个分类模型均可以得到一个对应的分类结果。其中,上述分类结果可以为分类结果向量,分类结果向量中每一维数据为目标词向量属于一个文本类别的概率,各个分类模型输出的分类结果向量的维数可以是相同的。
在本实施方式中,上述TextCNN为用于文本分类的卷积神经网络;GRU(GatedRecurrent Unit)为门控循环单元,GRU是RNN(循环神经网络)的一种;RNN(RecurrentNeural Network)为循环神经网络,RNN可以利用它内部的记忆来处理任意时序的输入序列;RCNN为递归卷积神经网络,CNN为卷积神经网络;Attention-GRU为基于Attention机制(注意力机制)的门控循环单元,基于注意力机制的深度学习模型可以通过训练词向量识别文本中词语的重要程度来提取文本中的重要特征。
在本实施方式中,上述TextCNN、GRU、RNN、RCNN、Attention-GRU五种深度学习模型的主体框架是类似的,基本思路就是:词(或者字)经过Embedding层(嵌入层)之后,利用CNN、RNN等结构,提取局部信息、全局信息或上下文信息,利用分类器进行分类,分类器的是由两层全连接层组成的
在本实施方式中,模型最终输出得出的是一个固定维数的向量,向量的维数可以为预先设置的文本类别数量。例如:需要将文本分为文学类、新闻类、体育类,那么对应的分类结果向量的维数则为3。当然,维数确定的方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在一些实施例中,由于不同的深度学***均,它的最大值是1,最小值是0。
在一些实施例中,上述权重可以为分类模型输出数据的权重,可以配置在分类模型的输出端。在一些实施例中,可以将分类结果与对应的权重相乘后的数据作为输出结果输出,也可以直接输出分类结果,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
S104:对各个分类模型对应的分类结果进行概率等权重融合,得到待分类文本的类别。
在本实施方式中,由于每个分类模型输出的分类结果均会存在差异,因此,为了提高分类结果的准确性,可以对各个分类模型对应的分类结果进行概率等权重融合,从而可以得到融合后的分类结果,进而可以确定出待分类文本的类别。
在本实施方式中,概率等权重融合的方式可以为默认每个模型输出的分类结果的权重相同,可以将每个模型输出的分类结果直接相加作为最终的分类结果。当然可以理解的是,还可以采用其它可能的方式进行模型的融合,例如:为每个分类模型设置对应的权重,将每个模型输出的分类结果进行加权求和,得到融合结果。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,由于分类结果向量中每一维数据为目标词向量属于一个文本类别的概率,因此,可以根据融合后的分类结果向量确定待分类文本所属的类别。例如:可以将融合后的分类结果向量中概率最大值对应的类别作为待分类文本所属的类别,也可以将融合后的分类结果向量中排名前三的概率值对应的类别作为待分类文本所属的类别,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
从以上的描述中,可以看出,本说明书实施例实现了如下技术效果:可以通过对获取的待分类文本进行预处理,得到目标词向量,并根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果,其中,上述多个分类模型可以为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型。进一步的由于每个分类模型输出的分类结果均会存在差异,因此,为了提高分类结果的准确性,可以对各个分类模型对应的分类结果进行概率等权重融合,从而可以得到融合后的分类结果,进而可以确定出待分类文本的类别。通过多模型进行融合的方式可以有效提高分类结果的准确性,并有效解决单一模型深度复杂化,无法从冗长文本中提取关键信息以提高文本分类准确性的问题。
在一个实施方式中,对所述待分类文本进行预处理,得到目标词向量,可以包括:对所述待分类文本进行截断补齐,得到目标文本,并根据所述目标文本,分别利用第一文本表征模型、第二文本表征模型和第三文本表征模型得到第一词向量、第二词向量、第三词向量。进一步的,可以将所述第一词向量、第二词向量和第三词向量拼接得到所述目标词向量。
在本实施方式中,由于不同文本的长度会存在差异,因此,为了规范输入文本表征模型中文本长度,可以对所述待分类文本进行截断补齐。一般模型的输入需要等尺寸大小的矩阵,因此,在输入模型前,可以对每条文本数值映射后的长度进行规范,根据文本长度分布分析,取合理长度,对超长文本进行截断,对不足文本进行补齐。
在本实施方式中,可以预先设定长度,长度的具体数值可以根据需要分类的文本的整体情况确定。例如:设定长度为x,截断的处理就是超出长度x的直接去除,不够长度x的就加0等补齐到长度x。
在本实施方式中,可以利用文本表征模型确定此处目标文本的词向量,可以利用三种不同的文本表征模型得到第一词向量、第二词向量、第三词向量。可以将三种文本表征模型输出的第一词向量、第二词向量、第三词向量按序进行拼接,从而得到目标词向量。
在一个实施方式中,第一词向量、第二词向量和第三词向量的向量维数相同。
在本实施方式中,第一词向量、第二词向量和第三词向量的向量维数可以为大于0的正整数,例如:100、155、300等,具体的可以根据实际情况确定,本说明书上实施例对此不作限定。
在一个实施方式中,所述第一文本表征模型、第二文本表征模型和第三文本表征模型分别为:word2vec、glove、fastText。
在本实施方式中,word2vec为用来产生词向量的相关模型,word2vec为浅层双层的神经网络,用来训练以重新建构语言学之词文本。训练完成的word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。
在本实施方式中,glove模型是全局向量模型,是一种无监督学习模型,可以获得类似于word2vec的词向量。然而,技术是不同的,训练是在一个聚合的全局词-词共现矩阵上做的,可以得到具有意义的子结构的向量空间。
在本实施方式中,fastText模型为word2vec模型的扩展和改进,fastText是一个学习单词表示的框架,可以执行健壮、快速和准确的文本分类。
在本实施方式中,还可以采用其它可能的模型确定词向量,例如:ELMo、GausEmbedding、LDA、Bert等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一个实施方式中,在对所述待分类文本进行预处理,得到目标词向量之后,还可以包括:根据所述目标文本,分别利用第一文本表征模型、第二文本表征模型和第三文本表征模型得到第一字向量、第二字向量、第三字向量,将所述第一字向量、第二字向量和第三字向量拼接得到目标字向量。
在本实施方式中,还可以基于字进行文本分类,由于基于词的模型效果要远好于基于字的模型效果,因此,在一些实施例中可以仅利用基于词的分类模型进行融合。但是由于数据的差异越大,融合的提升越多,虽然基于字训练的模型分数比较低,但是和基于词训练的模型进行融合,还是能有极大的提升。因此,在一些实施例中也可以将词分类模型和字分类模型进行融合从而确定最终的分类结果。
在本实施方式中,上述目标字向量的确定方式与目标词向量的确定方式相似,重复之处不再赘述。例如:可以利用word2vec得到字数据的100维向量以及词数据的100维向量;利用glove得到字数据的100维向量以及词数据的100维向量;利用fastText得到字数据的100维向量以及词数据的100维向量,并将上述三个字数据的100维向量拼接后得到300维的字向量,将上述三个词数据的100维向量拼接后得到300维的词向量。
在一个实施方式中,根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果,可以包括:根据所述目标词向量,利用第一词分类模型、第二词分类模型、第三词分类模型、第四词分类模型和第五词分类模型,得到第一分类结果向量、第二分类结果向量、第三分类结果向量、第四分类结果向量和第五分类结果向量;其中,分类结果向量中每一维数据表示属于一个文本分类的概率。对应的,对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别,可以包括:将所述第一分类结果向量、第二分类结果向量、第三分类结果向量、第四分类结果向量和第五分类结果向量相加,得到目标分类结果向量,并将所述目标分类结果向量中概率值排序前预设名对应的分类作为所述待分类文本的类别。
在本实施方式中,每一个词分类模型可以对应得到一个分类结果向量,分类结果向量中每一维数据表示属于一个文本分类的概率,根据分类结果向量中属于各个文本分类的概率值,可以确定出文本所属的类别。
在本实施方式中,概率等权重融合的方式可以为默认每个模型输出的分类结果的权重相同,可以将每个模型输出的分类结果直接相加,得到目标分类结果向量。当然可以理解的是,还可以采用其它可能的方式进行模型的融合,例如:为每个分类模型设置对应的权重,将每个模型输出的分类结果进行加权求和,得到融合结果。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,目标分类结果向量中每一维数据表示待分类文本属于一个文本分类的概率,可以将目标分类结果向量中的各个概率值进行降序排列。在一些实施例中可以将概率值最大的分类作为待分类文本的类别,也可以将概率值排序前预设名对应的分类作为所述待分类文本的类别。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,上述预设名可以正整数,例如:3、5等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一些实施例中,还可以将词分类模型和字分类模型进行融合从而确定最终的分类结果。可以根据目标字向量,利用第一字分类模型、第二字分类模型、第三字分类模型、第四字分类模型和第五字分类模型,得到对应的分类结果向量:第六分类结果向量、第七分类结果向量、第八分类结果向量、第九分类结果向量和第十分类结果向量。其中,上述第一字分类模型、第二字分类模型、第三字分类模型、第四字分类模型和第五字分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型。
在本实施例中,可以将所述第一分类结果向量、第二分类结果向量、第三分类结果向量、第四分类结果向量、第五分类结果向量、第六分类结果向量、第七分类结果向量、第八分类结果向量、第九分类结果向量和第十分类结果向量相加,得到融合后的分类结果向量,并利用融合后的分类结果向量确定待分类文本的类别。
在一个实施方式中,在根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果之前,还可以包括:获取初始文本数据集;对所述初始文本数据集进行预处理,得到词向量训练样本集和字向量训练样本集。进一步的,可以基于所述词向量训练样本集,利用TextCNN、GRU、RNN、RCNN、Attention-GRU训练得到多个词分类模型。并基于所述字向量训练样本集,利用TextCNN、GRU、RNN、RCNN、Attention-GRU训练得到多个字分类模型。
在本实施方式中,上述词向量训练样本集中可以包含多组词向量训练样本,每组词向量训练样本中可以包含一个词向量和分类标签。字向量训练样本集中可以包含多组字向量训练样本,每组字向量训练样本中可以包含一个字向量和分类标签。分类标签可以用于表示文本所属的类别,分类标签中包含的文本类别可以为一个也可以为多个,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,通过5种模型可以得到5个有差异的字分类模型和5个有差异的词分类模型。其中,TextCNN可以选择使用更多的卷积核以及BatchNorm(加速神经网络训练),相似在原有的一次卷积的基础上多进行一次卷积过程,分类时使用两层全连接。RNN可以采用Bi-LSTM(双向长短期记忆网络),分类时先把所有隐藏元的输出做K-MaxPooling。RCNN则对Embedding层的输出进行concat。其中,K-MaxPooling为原先的Max Pooling OverTime从卷积层一系列特征值中只取最强的那个值,MaxPooling Over Time是CNN模型中最常见的一种下采样操作,是对于某个Filter(过滤器)抽取到若干特征值,只取其中得分最大的那个值作为Pooling层保留值,其它特征值全部抛弃,值最大代表只保留这些特征中最强的,而抛弃其它弱的此类特征;上述concat方法用于连接两个或多个数组。
在本实施方式中,可以利用预设的训练策略进行模型训练,合适的训练策略可以抑制模型过拟合。在一个实施例中,训练策略可以为:
步骤一:刚开始训练的时候设置Embedding层的学习率为0,其他层的学习率为1e-3,采用Adam优化器(一开始的时候卷积层都是随机初始化的,反向传播得到的Embedding层的梯度收到卷积层的影响,相当于噪声),其中,Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重;
步骤二:训练1-2个epoch后,设置Embedding层的学习率为2e-4,其中1个epoch等于使用训练样本集中的全部样本训练一次,即epoch的值就是整个训练样本集被轮几次;
步骤三:每半个或一个epoch统计一次在验证集的分数(这里可以选用f1-score作为评分标准);
步骤四:判断分数是否上升;
步骤五:如果分数上升,保存模型,并记录保存路径;
步骤六:如果分数下降,加载上一个模型的保存路径,并降低一半的学习率,同时初始化Adam优化器,清空动量信息。
在本实施方式中,TextCNN、GRU、RNN、RCNN、Attention-GRU可以采用相同的训练策略。
在一个实施方式中,对所述初始文本数据集进行预处理,得到词向量训练样本集和字向量训练样本集,可以包括:对所述初始文本数据集中的各个文本数据进行截断补齐,得到目标文本数据集。分别利用第一文本表征模型、第二文本表征模型和第三文本表征模型对所述目标文本数据集中的各个文本数据进行文本表征,得到初始词向量集和初始字向量集;其中,所述初始词向量集中包含多组词向量,每组词向量中包含三个文本表征模型对应的词向量,所述初始字向量集中包含多组字向量,每组字向量中包含三个文本表征模型对应的字向量。进一步的,可以将所述初始词向量集中每组词向量进行拼接,得到词向量训练样本集。可以将所述初始字向量集中每组字向量进行拼接,得到字向量训练样本集。
在本实施方式中,由于不同文本的长度会存在差异,因此,为了规范输入文本表征模型中文本长度,可以对初始文本数据集中的各个文本数据进行截断补齐。一般模型的输入需要等尺寸大小的矩阵,因此,在输入模型前,可以对每条文本数值映射后的长度进行规范,根据文本长度分布分析,取合理长度,对超长文本进行截断,对不足文本进行补齐。
在本实施方式中,可以预先设定长度,长度的具体数值可以根据初始文本数据集中的各个文本数据的整体情况确定,可以设置为长度以满足覆盖字和词数据的95%。例如:长度汇总有(16,14,17,16,14,15,18,15,18,19,20),总共11个文本的长度,覆盖其中95%,就是要有10个左右的长度在设定长度范围内,因此,可以选取长度19,从而可以满足覆盖率要求。
在本实施方式中,对初始文本数据集中的各个文本数据进行截断补齐,可以包括:设定长度为x,截断的处理就是超出长度x的直接去除,不够长度x的就加0等补齐到长度x,从而确保目标文本数据集各个文本的长度均为x。
在本实施方式中,可以利用三种文本表征模型确定目标文本数据集中的各个文本数据的词向量和字向量,例如:可以利用word2vec得到字数据的100维向量以及词数据的100维向量;利用glove得到字数据的100维向量以及词数据的100维向量;利用fastText得到字数据的100维向量以及词数据的100维向量,并将上述三个字数据的100维向量拼接后得到300维的字向量,将上述三个词数据的100维向量拼接后得到300维的词向量,从而得到词向量训练样本集和字向量训练样本集。当然,词向量训练样本集和字向量训练样本集确定的方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
基于同一发明构思,本说明书实施例中还提供了一种文本分类装置,如下面的实施例所述。由于文本分类装置解决问题的原理与文本分类方法相似,因此文本分类装置的实施可以参见文本分类方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图2是本说明书实施例的文本分类装置的一种结构框图,如图2所示,可以包括:获取模块201、预处理模块202、确定模块203、融合模块204,下面对该结构进行说明。
获取模块201,可以用于获取待分类文本;
预处理模块202,可以用于对所述待分类文本进行预处理,得到目标词向量;
确定模块203,可以用于根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果;其中,所述多个分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型;
融合模块204,可以用于对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别。
本说明书实施例实施方式还提供了一种电子设备,具体可以参阅图3所示的基于本说明书实施例提供的文本分类方法的电子设备组成结构示意图,所述电子设备具体可以包括输入设备31、处理器32、存储器33。其中,所述输入设备31具体可以用于输入待分类文本。所述处理器32具体可以用于获取待分类文本;对所述待分类文本进行预处理,得到目标词向量;根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果;其中,所述多个分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型;对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别。所述存储器33具体可以用于存储待分类文本的类别等参数。
在本实施方式中,所述输入设备具体可以是用户和计算机***之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次,在数字***中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在***中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该电子设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本说明书实施例实施方式中还提供了一种基于文本分类方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时可以实现:获取待分类文本;对所述待分类文本进行预处理,得到目标词向量;根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果;其中,所述多个分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型;对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
虽然本说明书实施例提供了如上述实施例或流程图所述的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本说明书实施例提供的执行顺序。所述的方法的在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本说明书实施例的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本说明书实施例的优选实施例而已,并不用于限制本说明书实施例,对于本领域的技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。
Claims (11)
1.一种文本分类方法,其特征在于,包括:
获取待分类文本;
对所述待分类文本进行预处理,得到目标词向量;
根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果;其中,所述多个分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型;
对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别。
2.根据权利要求1所述的方法,其特征在于,对所述待分类文本进行预处理,得到目标词向量,包括:
对所述待分类文本进行截断补齐,得到目标文本;
根据所述目标文本,分别利用第一文本表征模型、第二文本表征模型和第三文本表征模型得到第一词向量、第二词向量、第三词向量;
将所述第一词向量、第二词向量和第三词向量拼接得到所述目标词向量。
3.根据权利要求2所述的方法,其特征在于,所述第一词向量、第二词向量和第三词向量的向量维数相同。
4.根据权利要求2所述的方法,其特征在于,所述第一文本表征模型、第二文本表征模型和第三文本表征模型分别为:word2vec、glove、fastText。
5.根据权利要求2所述的方法,其特征在于,在对所述待分类文本进行预处理,得到目标词向量之后,还包括:
根据所述目标文本,分别利用第一文本表征模型、第二文本表征模型和第三文本表征模型得到第一字向量、第二字向量、第三字向量;
将所述第一字向量、第二字向量和第三字向量拼接得到目标字向量。
6.根据权利要求1所述的方法,其特征在于,根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果,包括:
根据所述目标词向量,利用第一词分类模型、第二词分类模型、第三词分类模型、第四词分类模型和第五词分类模型,得到第一分类结果向量、第二分类结果向量、第三分类结果向量、第四分类结果向量和第五分类结果向量;其中,分类结果向量中每一维数据表示属于一个文本分类的概率;
对应的,对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别,包括:
将所述第一分类结果向量、第二分类结果向量、第三分类结果向量、第四分类结果向量和第五分类结果向量相加,得到目标分类结果向量;
将所述目标分类结果向量中概率值排序前预设名对应的分类作为所述待分类文本的类别。
7.根据权利要求1所述的方法,其特征在于,在根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果之前,还包括:
获取初始文本数据集;
对所述初始文本数据集进行预处理,得到词向量训练样本集和字向量训练样本集;
基于所述词向量训练样本集,利用TextCNN、GRU、RNN、RCNN、Attention-GRU训练得到多个词分类模型;
基于所述字向量训练样本集,利用TextCNN、GRU、RNN、RCNN、Attention-GRU训练得到多个字分类模型。
8.根据权利要求7所述的方法,其特征在于,对所述初始文本数据集进行预处理,得到词向量训练样本集和字向量训练样本集,包括:
对所述初始文本数据集中的各个文本数据进行截断补齐,得到目标文本数据集;
分别利用第一文本表征模型、第二文本表征模型和第三文本表征模型对所述目标文本数据集中的各个文本数据进行文本表征,得到初始词向量集和初始字向量集;其中,所述初始词向量集中包含多组词向量,每组词向量中包含三个文本表征模型对应的词向量,所述初始字向量集中包含多组字向量,每组字向量中包含三个文本表征模型对应的字向量;
将所述初始词向量集中每组词向量进行拼接,得到词向量训练样本集;
将所述初始字向量集中每组字向量进行拼接,得到字向量训练样本集。
9.一种文本分类装置,其特征在于,包括:
获取模块,用于获取待分类文本;
预处理模块,用于对所述待分类文本进行预处理,得到目标词向量;
确定模块,用于根据所述目标词向量和多个分类模型,确定各个分类模型对应的分类结果;其中,所述多个分类模型为分别利用TextCNN、GRU、RNN、RCNN、Attention-GRU预先训练得到的用于进行文本分类的机器学习模型;
融合模块,用于对所述各个分类模型对应的分类结果进行概率等权重融合,得到所述待分类文本的类别。
10.一种文本分类设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110880080.4A CN113535960A (zh) | 2021-08-02 | 2021-08-02 | 一种文本分类方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110880080.4A CN113535960A (zh) | 2021-08-02 | 2021-08-02 | 一种文本分类方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113535960A true CN113535960A (zh) | 2021-10-22 |
Family
ID=78090056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110880080.4A Pending CN113535960A (zh) | 2021-08-02 | 2021-08-02 | 一种文本分类方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535960A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118817A (zh) * | 2021-11-30 | 2022-03-01 | 济南农村商业银行股份有限公司 | 一种银行阳光办贷贷款审查派单方法、装置和*** |
CN116992033A (zh) * | 2023-09-25 | 2023-11-03 | 北京中关村科金技术有限公司 | 文本分类的阈值确定方法、分类方法及相关装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109376240A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 一种文本分析方法及终端 |
CN110134793A (zh) * | 2019-05-28 | 2019-08-16 | 电子科技大学 | 文本情感分类方法 |
CN110209805A (zh) * | 2018-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质和计算机设备 |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
WO2020147393A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
-
2021
- 2021-08-02 CN CN202110880080.4A patent/CN113535960A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209805A (zh) * | 2018-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质和计算机设备 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109376240A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 一种文本分析方法及终端 |
WO2020147393A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
CN110134793A (zh) * | 2019-05-28 | 2019-08-16 | 电子科技大学 | 文本情感分类方法 |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118817A (zh) * | 2021-11-30 | 2022-03-01 | 济南农村商业银行股份有限公司 | 一种银行阳光办贷贷款审查派单方法、装置和*** |
CN114118817B (zh) * | 2021-11-30 | 2022-08-05 | 济南农村商业银行股份有限公司 | 一种银行贷款审查派单方法、装置和*** |
CN116992033A (zh) * | 2023-09-25 | 2023-11-03 | 北京中关村科金技术有限公司 | 文本分类的阈值确定方法、分类方法及相关装置 |
CN116992033B (zh) * | 2023-09-25 | 2023-12-08 | 北京中关村科金技术有限公司 | 文本分类的阈值确定方法、分类方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111427995B (zh) | 基于内部对抗机制的语义匹配方法、装置及存储介质 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN112507039A (zh) | 基于外部知识嵌入的文本理解方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、***及设备 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN113535960A (zh) | 一种文本分类方法、装置和设备 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN112149410A (zh) | 语义识别方法、装置、计算机设备和存储介质 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、***及装置 | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN115269833A (zh) | 基于深度语义和多任务学习的事件信息抽取方法及*** | |
CN112765353B (zh) | 一种基于科研文本的生物医学学科分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |