CN109933670A - 一种基于组合矩阵计算语义距离的文本分类方法 - Google Patents

一种基于组合矩阵计算语义距离的文本分类方法 Download PDF

Info

Publication number
CN109933670A
CN109933670A CN201910209354.XA CN201910209354A CN109933670A CN 109933670 A CN109933670 A CN 109933670A CN 201910209354 A CN201910209354 A CN 201910209354A CN 109933670 A CN109933670 A CN 109933670A
Authority
CN
China
Prior art keywords
text
vector
word
matrix
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910209354.XA
Other languages
English (en)
Other versions
CN109933670B (zh
Inventor
裘嵘
杨俊杰
张祖平
罗律
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910209354.XA priority Critical patent/CN109933670B/zh
Publication of CN109933670A publication Critical patent/CN109933670A/zh
Application granted granted Critical
Publication of CN109933670B publication Critical patent/CN109933670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于组合矩阵计算语义距离的文本分类方法,包括步骤:S1、对中文文本进行处理,生成基于词袋模型的向量空间模型;S2、对于全部文本集合,使用生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量,并结合训练出来的词向量和文本向量,构成一个文本矩阵;S3、对文本矩阵进行交叉运算,得到文本之间的语义距离。本发明提出的文本向量的表示和语义距离的计算方法,既克服了传统的词袋模型的缺陷,也改善了TF‑IDF算法的不足,从而可以训练出更好的分类模型来提升文本分类的准确性。

Description

一种基于组合矩阵计算语义距离的文本分类方法
技术领域
本发明属于涉自然语言处理领域,特别是涉及一种基于组合矩阵计算语义距离的文本分类方法。
背景技术
随着互联网的逐步普及与通讯技术的迅速发展,如何对以指数级别增长的网络数据进行高效的组织管理已经成为棘手和迫切的研究课题。而在这些浩如烟海的文献、资料和数据中,很大以部分的内容都是以文本为表现形式,对这些文本进行自动分类的过程被称作文本分类,文本分类是模式识别与自然语言处理相结合的一种技术,旨在根据文本内容的属性或特征,将目标文本关联到一个或多个类别中。传统的文本分类技术以知识工程的方法为主,相关领域的专家根据目标文本的分类经验,人工地提取出一些分类的逻辑规则,以此作为文本分类的依据。而近年来,随着机器学习与深度学习相关技术与计算机运算速度的提升,基于统计机器学习的文本分类方法开始得到青睐并在分类结果的准确率与稳定性上取得显著的优势。
目前业界基于统计机器学习的文本分类的技术过程,通常有几个重要步骤:一、对自然语言文本进行数据化建模,即将真实文本表示为计算机能够高效处理的数据形式;二、根据上述建模方法,将所有目标文档都转换为特定的数据表达形式;三、规定不同文档的数据表达之间的运算关系;四、利用文本文档的数据表达形式和不同数据间的运算关系,设计文本分类的机器学习模型并进行训练;五、对给定的未知类别文档,将其转换为特定数据表达形式,并投入已经训练好的机器学习模型,得到该文档的类别预测结果。
在自然语言处理中,文本的数据化建模一般都是使用向量空间模型(VectorSpaceModel,VSM),即将一个文本文档表示为n维向量空间的中的一个向量,向量中每个不同的位置代表一个特征项,不同位置的数值大小表示该位置在整个向量的权重,既重要性大小,由特征项的总和构成对文本的全部表达。在汉语里,词语是汉语语言中表达语义的最小单元,因此在中文自然语言处理过程中,通常都是选取文本中的词语作为文本向量的特征项,每个词语在特定文本向量中所在位置的权重大小表示该词语在文档中的重要性。
实际应用中一般采用词袋模型(BagofWord,bow)作为向量空间模型的初始表达,词袋模型将所有文本中的全部词语以一种位置固定、顺序随机的方式摆放,因为每个不同的词语都作为一个独一无二的特征项,所以这些固定摆放的词语全集构成了一个用于表达任意文本的向量空间。对于一篇具体的文本,它的文本向量里每个特征项的权重值为该特征项对应的词语在文本中出现的频率次数,即用词语在特定文本中出现的次数衡量其在该文本中的重要性。除了文本可以用向量空间模型表示,词语本身也可以用n维向量空间中的一个向量表示,对于词语全集中的一个具体的词,它的词向量用独热编码(One-hot)表示,该词语在向量空间中所在的固定位置对应的值为1,而表示其它词语的其余位置为0。所以,对于一篇具体的文本,由词袋模型生成的文本向量也可以看作构成该文本的所有词语的词向量的累加。
在词袋模型中,由于文本向量各位置的值仅仅由各个位置对应词语在文中的频次所决定,因此具有很大的局限性。除了用词频表示文本向量权重,工程应用上最常用于计算文本向量权重的方法是词频逆文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)算法,该算法思想为,特征项的权重大小与该特征项在文档中出现的频率成正比,与在整个语料集中包含该特征项的文档数量成反比,对于一篇具体的文档来说,某个词语在该文档中出现的次数越多,其重要性越高,但是某个词语如果在其他文档中出现的次数越多越说明其代表的一般性,该词语的权重也则越低。
对于任意两篇文档Dx和Dy之间的相似性度量,可以借助n维空间中的两个文档向量Dx和Dy的某种距离关系来计算,常用的方法是使用向量之间的内积来计算,向量的内积可以用于表征两个向量之间的夹角大小,或称余弦相似度。
然而,在现实生活中,中文常用词语有数万个,一篇文档中所包含的词却一般只有成百上千,由于产生的向量空间的维度也是几万维,向量中的非零项只有几千个,这样得到的文档向量和词向量都将是高维的稀疏向量,两个高维度的稀疏向量的内积得到的相似性结果不但不够准确,而且建模与计算过程完全没有考虑文本向量中的特征项与特征项之间,即词语与词语之间的语义距离。
近几年来,深度学习理论的发展和技术的更迭对自然语言处理起着深刻的影响,其中比较重要的是一种称为词嵌入(WordEmbedding)的分布式表示(DistributedRepresentation)技术,分布式表示基于分布假设理论,利用共生矩阵来获取词的语义表达,而词嵌入则实现了将词语映射到一个新的空间,并以多维的连续实数向量表示。词嵌入方法中,最有名的是谷歌提出的word2vec模型,其通过人工神经网络算法来训练语言模型,并在训练过程中得到词语所对应的低维向量。这种使用低维空间表示词向量的方法,不但解决了维数灾难问题,还挖掘出词语之间的关联属性,从而提高了词向量在语义表达上的准确度。
发明内容
本发明提出的表示文本的方法与计算文本间语义距离的方法不同于上述传统策略。
在文本的表示建模方法上,假定用于表达所有文本的词语全集个数为n个,则文本语言模型的向量空间维度即为n维,然后在规定需要训练的词向量维度为m维。对于一个具体的文本文档,首先采用TF-IDF算法计算文档中各个词的权重值,得到文本n维的权重向量,但并非直接使用此权重向量来表达文本,而是对于将权重向量中每个特征项的值,即词语的权重,乘以该特征项所在位置的词语的词向量,实现将每个词的m维词向量嵌入到各自词语的权重中,将数乘得到的一个新的m维加权词向量取代原来每个词对应的具***置的权重值,最终得到关于文本的n×m大小的矩阵表达,文本矩阵的每一行都是一个行向量,行向量的值等于词向量与该词语的权重的数乘。该行向量不仅携带某个词在文本中的权重大小,也携带了该个词的语法和语义特征,通过这种手段便将文本的向量空间表示从传统的向量扩充为矩阵,使其语义表达能力与携带的信息量更加丰富。
区别于传统的文本向量通过计算余弦相似度的方式度量文本语义距离的方式,本发明提出文本语义距离计算方法基于上述文本表示的建模方法。对于两个不同文本,其数据化表达形式为n×m的矩阵,文档矩阵1的每一个行向量不是只与文档矩阵2对应位置的行向量计算相似度,而是与文档矩阵2中的每一个行向量计算相似度,并将计算结果累加作为两个文档的语义相似性度量结果,该方法思想凭借词向量具有词间语义距离和语法关系的特性,能够更精准地计算出不同文本的不同的特征项之间语义距离和共现概率。
在机器学习分类模型的方法选取上,由于本发明所设计的领域是自然语言处理中的文本分类,而文本根据不同的划分标准可以分为多种类别,对此二元分类器的应用有限,因此任务中常采用多类别分类器。在多类别分类器中基于距离计算的分类算法要比支持向量机、多元逻辑回归等常用算法更适用与当前应用场景,因为分类任务最重要依据是基于文本间语义距离,而且前者有着更低的算法复杂度和运算量,能够加速模型的训练和预测。
本发明采用KNN分类算法,并结合K-Means聚类算法中迭代类别质心的思想。KNN算法的思路是,计算一个未知样本在特征空间中与其最临近K个(即在语言模型中语言距离最近)的已知样本,如果这K个样本中大多数属于某一个特定类别,则预测该未知样本同样属于这个特定类别。KNN算法需要计算未知样本与特征空间中所有样本的距离,如果特征样本为训练集的全集,那么一个分类任务的计算量将非常大,因此本发明采用“选代表”的方式来设置特征空间,即根据不同文本类别中的文本数量在全部文本中的比例大小,从每个类别中按照加权数量选取一些具有“代表性”的样本作为该类别在特征空间中部分样本。而对于“代表性”特征的选取,则吸取K-Means聚类方法中迭代计算质心(聚类中心)的方法,对于训练样本中的一个类别,每次从类别中随机选取若干个样本,并计算这些样本的质心,重复多次,从每个类别中选取随机样本计算的质心的个数取决于该类别中样本的数量,最终将所有类别计算出来的质心的集合作为分类模型的样本空间。
对于一个未知类别的文本文档,首先对使用模型其进行转换,生成上述方法中的文本矩阵,在将文本矩阵置于分类模型中,得到该未知文本的预测的类别。
本发明与现有技术相比,有效效果如下:
1、克服了传统的词袋模型的缺陷,例如对于具体的一篇文本来说,词袋模型中的词语是无序的,因此不能考虑文档中词语之间的上下文关系;
2、改善了TF-IDF算法仅根据计算出的词语权重并根据权重向量间的余弦相似度计算衡量文档间语义距离的不足;
3、计算文本间语义距离的思想虽然计算复杂度更高,但是可以更加精准地计算出文本间相似度度量结果,不但可以使得越相似的文本在向量空间中距离越近,而且还能让越不相似的文本在向量空间中距离越远,即使得不同类别的文本有着更清晰的分类边界,这种效果带来的提升还将体现在后续的机器学习分类模型的训练过程中,分类模型的训练数据集有更清晰的类别区分,从而可以训练出更好的分类模型来提升文本分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明对文本进行分类的技术流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明对文本进行分类的技术流程图,具体流程包括:对中文文本进行分词处理,过滤停用词等;统计词频,生成文本的词袋模型表示,即初始文本向量;使用TF-IDF算法更新词袋模型文本向量中各特征性的权重值;对于全部文本集合,使用上述步骤中生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量;结合训练出来的词向量和文本向量,构成一个文本矩阵;对文本矩阵进行交叉运算,得到文本之间的语义距离;训练出一个基于距离计算的文本分类器;将未知类别的文本转换为文本矩阵,将文本矩阵输入到分类模型,得到文本的所属类别的预测结果。具体实施如下:
对于文本分类任务,假定已有一组已经标注类别的文本数据集DX={Dx1,Dx2,…,Dxk},及其对应的类别标签LX={Lx1,Lx2,…,Lxk}。
其中Dxi代表文档数据集中的一篇具体文本文档,其所属的类别为Lxi
1.文档的空间模型表示
由于在中文文本的向量空间模型中,特征项最小单元是汉语词语,所以对于一篇语言连续候选文档Dxi,首先需要用汉语分词算法对连续文本进行自动分词处理,再过滤掉助词、语气词等不表示实意的词,最终将文本分割成一串连续的词语组合。
然后统计得到的连续的词语组合,根据统计结果生成文本的词袋模型[(t1,f1),(t2,f2),…,(tn,fn)],词袋模型的每一项都是一个二元组,二元组中第一位元素ti表示词语本身,第二位元素fi是它在文本中的频率。值得注意的是,在对于所有文本文档的处理过程中,词袋模型的词语位置顺序(t1,t2,…,tn)是固定不变的。
对每一个文本的词袋模型,词语ti的权重为该词在文本中的出现频率fi,为了更准确地评估某个特定词语ti在具体文档文档Dxi中的重要性,需该根据进行TF-IDF计算公式更新每个词语的权重值wi
K(ti,Dxi)即为计算后的新的权重值,其中tf(ti,Dxi)为词语ti在文档Dxi中的出现频次,idf(ti)为词语ti在全部文档集中出现的频次的倒数。
根据上述流程便可得到任意一篇文本文档Di的向量空间模型表示
Dxi=[(t1,w1),(t2,w2),…,(tn,wn)
由于词袋模型的词语位置顺序固定不变,因此每个词语都在模型向量中有一个固定的索引位置,因此可以将文本向量表示为:
Dxi=[w1,w2,…,wn]
至此为止,我们已经得到了文本的向量表达,自然语言文本转换成了可以在可以进行数学建模和数学计算的文本向量。
2.词向量的训练
词向量的训练的训练可以用谷歌的TensorFlow深度学习框架自行搭建循环神经网络进行训练,也可以利用其开源框架word2vec,因为word2vec算法的背后是一个浅层的人工神经网络,它可以更加便捷地训练得到需要的词向量模型,能够在百万数量级的词典和上亿的数据集上进行高效低训练,而且对后期投入新的语料也可以以前的模型上进行增量训练,优化模型的质量。
上述步骤中所生产的词袋模型可以直接作为词向量训练时所用的语料,这样既可以使训练出来的词向量所携带的语义信息更贴合实际任务,也能够保证文档集的所用词语都能够被词向量模型表示。
对于训练完的词向量模型,词语ti的词向量表示形如:
其中词向量的向量维度m为训练时所预设的值,通常选取100-1000。
3.文档的矩阵模型表示
基于上述文档的向量模型和词向量模型,文档可以用基于词向量的TF-IDF加权组合表达,对于任意一篇文本文档Dxi=[w1,w2,…,wn],将向量中的每个特征项ti的权重wi和该特征项的词向量数乘,得到一个新的向量用这个新的向量替换原来的权重值标量,便将一个文本向量扩展为n×m大小的文本矩阵:
因此,对于一个具体的文本文档,其文本矩阵的表现形式不但能够表达每个词在文本中的重要性程度,还将词语语法(即上下文关系)和其语义信息也包含进来,将文本的所携带信息的体量和质量提升到一个新的维度和层次。
4.文本文档的语义距离的计算
上述文本矩阵也可以表达为如下向量的向量形式:
其中表示文档Dxi中第j个位置所在的词语tj的权重wj与该词语词向量的数乘得到的向量。
对于两篇候选文档Dx和Dy:
其语义距离计算可以用如下公式计算:
其中sun()用于累加矩阵的所有元素,将Dx扩充到n维是为了计算Dx中任意第j个位置的向量与Dy中所有位置向量的点积和因此最终计算得到的两个文本的语义距离公式如下:
由计算过程也可以得知,该计算方法不但考虑文本中各词语的权重,还考量了各不同位置的词语的词向量运算所反映出的两篇文档中所有特征性之间的共现概率、语义相关性及上下文关系,打破了传统统计计算方法的固有限制,实现了从统计到语法的文档语义距离综合评估,能够更加准确可靠地计算文档间相似性结果。
5.分类器的训练
对于所有的有标记的训练文本集DX={Dx1,Dx2,…,Dxk},根据数据集的标签数据LX={Lx1,Lx2,…,Lxk}统计各类别中文本数据数据个数,采用分层抽样的办法,根据不同文本类别中的文本数量在全部文本中的比例大小,从每个类别中按照加权数量选取一些具有“代表性”的样本作为该类别在特征空间中部分样本。对于训练样本中的一个类别,每次从类别中随机选取若干个样本,并计算这些样本的质心,重复多次,从每个类别中选取随机样本计算的质心的个数取决于该类别中样本的数量,最终将所有类别计算出来的质心的集合作为分类模型的样本空间。
6.预测未知类别的文本
对于一个未知样本,首先对先用上述步骤1、2、3,将文本文档转换为文档矩阵,生成上述方法中的文本矩阵,在将文本矩阵置于分类模型中,根据步骤4的文本间语义距离计算方法计算目标文档与特征空间中所有类别质心的语义距离,在特征空间中与其最临近K个(即在语言模型中语言距离最近)的已知样本,如果这K个样本中大多数属于某一个特定类别,则预测该未知样本同样属于这个特定类别。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于组合矩阵计算语义距离的文本分类方法,其特征在于,包括步骤:
S1、对中文文本进行处理,生成基于词袋模型的向量空间模型;
S2、对于全部文本集合,使用生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量,并结合训练出来的词向量和文本向量,构成一个文本矩阵;
S3、对文本矩阵进行交叉运算,得到文本之间的语义距离。
2.根据权利要求1所述的基于组合矩阵计算语义距离的文本分类方法,其特征在于,所述步骤S1具体包括:
S1.1、用汉语分词算法对所述中文文本进行自动分词处理,同时过滤无实意词,将文本分割成一串连续的词语组合;
S1.2、统计词频,生成文本的词袋模型表示,即初始文本向量;
S1.3、使用TF-IDF算法更新所述词袋模型文本向量中各特征性的权重值,得到文本的向量表达。
3.根据权利要求2所述的基于组合矩阵计算语义距离的文本分类方法,其特征在于,根据统计结果生成文本的词袋模型[(t1,f1),(t2,f2),…,(tn,fn)],所述词袋模型的每一项都是一个二元组,二元组中第一位元素ti表示词语本身,第二位元素fi是它在文本中的频率,并且在对于所有文本文档的处理过程中,词袋模型的词语位置顺序(t1,t2,…,tn)是固定不变的;
为了更准确地评估某个特定词语ti在具体文档Dxi中的重要性,需该根据进行TF-IDF计算公式更新每个词语的权重值wi
K(ti,Dxi)即为计算后的新的权重值,其中tf(ti,Dxi)为词语ti在文档Dxi中的出现频次,idf(ti)为词语ti在全部文档集中出现的频次的倒数;
因此,可得到任意一篇文本文档Di的向量空间模型表示
Dxi=[(t1,w1),(t2,w2),…,(tn,wn)
简化后可得
Dxi=[w1,w2,…,wn]。
4.根据权利要求3所述的基于组合矩阵计算语义距离的文本分类方法,其特征在于,所述步骤S2具体包括:对于任意一篇文本文档Dxi=[w1,w2,…,wn],将向量中的每个特征项ti的权重wi和该特征项的词向量数乘,得到一个新的向量用这个新的向量替换原来的权重值标量,便将一个文本向量扩展为n×m大小的文本矩阵
简化后可得
其中tj∈Dxi,表示文档Dxi中第j个位置所在的词语tj的权重wj与该词语词向量的数乘得到的向量。
5.根据权利要求4所述的基于组合矩阵计算语义距离的文本分类方法,其特征在于,所述步骤S3中,对于两篇候选文档Dx和Dy:
其语义距离计算可以用如下公式计算:
其中sun()用于累加矩阵的所有元素,将Dx扩充到n维是为了计算Dx中任意第j个位置的向量与Dy中所有位置向量的点积和因此最终计算得到的两个文本的语义距离公式如下:
6.一种文本分类方法,其特征在于,包括步骤:
S1、对中文文本进行处理,生成基于词袋模型的向量空间模型;
S2、对于全部文本集合,使用生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量,并结合训练出来的词向量和文本向量,构成一个文本矩阵;
S3、对文本矩阵进行交叉运算,得到文本之间的语义距离;
S4、训练出一个基于距离计算的文本分类器;
S5、将未知类别的文本转换为文本矩阵,将文本矩阵输入到分类模型,得到文本的所属类别的预测结果。
7.根据权利要求6所述的文本分类方法,其特征在于,所述步骤S1具体包括:
S1.1、用汉语分词算法对所述中文文本进行自动分词处理,同时过滤无实意词,将文本分割成一串连续的词语组合;
S1.2、统计词频,生成文本的词袋模型表示,即初始文本向量;
S1.3、使用TF-IDF算法更新所述词袋模型文本向量中各特征性的权重值,得到文本的向量表达。
8.根据权利要求6所述的文本分类方法,其特征在于,所述步骤S2具体包括:
对于任意一篇文本文档Dxi=[w1,w2,…,wn],将向量中的每个特征项ti的权重wi和该特征项的词向量数乘,得到一个新的向量用这个新的向量替换原来的权重值标量,便将一个文本向量扩展为n×m大小的文本矩阵
简化后可得
其中tj∈Dxi,表示文档Dxi中第j个位置所在的词语tj的权重wj与该词语词向量的数乘得到的向量。
9.根据权利要求6所述的文本分类方法,其特征在于,所述步骤S3中,对于两篇候选文档Dx和Dy:
其语义距离计算可以用如下公式计算:
其中sun()用于累加矩阵的所有元素,将Dx扩充到n维是为了计算Dx中任意第j个位置的向量与Dy中所有位置向量的点积和因此最终计算得到的两个文本的语义距离公式如下:
CN201910209354.XA 2019-03-19 2019-03-19 一种基于组合矩阵计算语义距离的文本分类方法 Active CN109933670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910209354.XA CN109933670B (zh) 2019-03-19 2019-03-19 一种基于组合矩阵计算语义距离的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910209354.XA CN109933670B (zh) 2019-03-19 2019-03-19 一种基于组合矩阵计算语义距离的文本分类方法

Publications (2)

Publication Number Publication Date
CN109933670A true CN109933670A (zh) 2019-06-25
CN109933670B CN109933670B (zh) 2021-06-04

Family

ID=66987629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910209354.XA Active CN109933670B (zh) 2019-03-19 2019-03-19 一种基于组合矩阵计算语义距离的文本分类方法

Country Status (1)

Country Link
CN (1) CN109933670B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558489A (zh) * 2018-12-03 2019-04-02 南京中孚信息技术有限公司 文本分类方法及装置
CN110348497A (zh) * 2019-06-28 2019-10-18 西安理工大学 一种基于WT-GloVe词向量构建的文本表示方法
CN110389932A (zh) * 2019-07-02 2019-10-29 华北电力科学研究院有限责任公司 电力文件自动分类方法及装置
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和***
CN110738049A (zh) * 2019-10-12 2020-01-31 招商局金融科技有限公司 相似文本的处理方法、装置及计算机可读存储介质
CN110909162A (zh) * 2019-11-15 2020-03-24 龙马智芯(珠海横琴)科技有限公司 文本质检的方法、存储介质及电子设备
CN111104508A (zh) * 2019-10-25 2020-05-05 重庆邮电大学 基于容错粗糙集的词袋模型文本表示方法、***及介质
CN111125328A (zh) * 2019-12-12 2020-05-08 深圳数联天下智能科技有限公司 文本处理方法及相关设备
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN112417893A (zh) * 2020-12-16 2021-02-26 江苏徐工工程机械研究院有限公司 一种基于语义层次聚类的软件功能需求分类方法及***
CN112818679A (zh) * 2019-11-15 2021-05-18 阿里巴巴集团控股有限公司 事件类别确定方法、装置及电子设备
CN113011166A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种基于决策树分类的继电保护缺陷文本同义词识别方法
CN114492420A (zh) * 2022-04-02 2022-05-13 北京中科闻歌科技股份有限公司 文本分类方法、装置、设备及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094875A1 (en) * 2008-08-11 2010-04-15 Collective Media, Inc. Method and system for classifying text
CN105426923A (zh) * 2015-12-14 2016-03-23 北京科技大学 一种半监督分类方法及***
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
CN107590177A (zh) * 2017-07-31 2018-01-16 南京邮电大学 一种结合监督学习的中文文本分类方法
US20180114142A1 (en) * 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
CN108255813A (zh) * 2018-01-23 2018-07-06 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法
CN108897769A (zh) * 2018-05-29 2018-11-27 武汉大学 基于生成式对抗网络实现文本分类数据集扩展方法
US20190034766A1 (en) * 2016-04-21 2019-01-31 Sas Institute Inc. Machine learning predictive labeling system
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094875A1 (en) * 2008-08-11 2010-04-15 Collective Media, Inc. Method and system for classifying text
CN105426923A (zh) * 2015-12-14 2016-03-23 北京科技大学 一种半监督分类方法及***
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
US20190034766A1 (en) * 2016-04-21 2019-01-31 Sas Institute Inc. Machine learning predictive labeling system
US20180114142A1 (en) * 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
CN107590177A (zh) * 2017-07-31 2018-01-16 南京邮电大学 一种结合监督学习的中文文本分类方法
CN108255813A (zh) * 2018-01-23 2018-07-06 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法
CN108897769A (zh) * 2018-05-29 2018-11-27 武汉大学 基于生成式对抗网络实现文本分类数据集扩展方法
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIN SONG等: "Research of Chinese Text Classification Methods Based on Semantic Vector and Semantic Similarity", 《IEEE》 *
张敬谊等: "基于词向量特征的文本分类模型研究", 《信息技术与标准化》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558489A (zh) * 2018-12-03 2019-04-02 南京中孚信息技术有限公司 文本分类方法及装置
CN110348497B (zh) * 2019-06-28 2021-09-10 西安理工大学 一种基于WT-GloVe词向量构建的文本表示方法
CN110348497A (zh) * 2019-06-28 2019-10-18 西安理工大学 一种基于WT-GloVe词向量构建的文本表示方法
CN110389932A (zh) * 2019-07-02 2019-10-29 华北电力科学研究院有限责任公司 电力文件自动分类方法及装置
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和***
CN110738049A (zh) * 2019-10-12 2020-01-31 招商局金融科技有限公司 相似文本的处理方法、装置及计算机可读存储介质
CN110738049B (zh) * 2019-10-12 2023-04-18 招商局金融科技有限公司 相似文本的处理方法、装置及计算机可读存储介质
CN111104508A (zh) * 2019-10-25 2020-05-05 重庆邮电大学 基于容错粗糙集的词袋模型文本表示方法、***及介质
CN111104508B (zh) * 2019-10-25 2022-07-01 重庆邮电大学 基于容错粗糙集的词袋模型文本表示方法、***及介质
CN112818679A (zh) * 2019-11-15 2021-05-18 阿里巴巴集团控股有限公司 事件类别确定方法、装置及电子设备
CN110909162A (zh) * 2019-11-15 2020-03-24 龙马智芯(珠海横琴)科技有限公司 文本质检的方法、存储介质及电子设备
CN111125328A (zh) * 2019-12-12 2020-05-08 深圳数联天下智能科技有限公司 文本处理方法及相关设备
CN111125328B (zh) * 2019-12-12 2023-11-07 深圳数联天下智能科技有限公司 文本处理方法及相关设备
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN112417893A (zh) * 2020-12-16 2021-02-26 江苏徐工工程机械研究院有限公司 一种基于语义层次聚类的软件功能需求分类方法及***
CN113011166A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种基于决策树分类的继电保护缺陷文本同义词识别方法
CN114492420A (zh) * 2022-04-02 2022-05-13 北京中科闻歌科技股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN114492420B (zh) * 2022-04-02 2022-07-29 北京中科闻歌科技股份有限公司 文本分类方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN109933670B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN109933670A (zh) 一种基于组合矩阵计算语义距离的文本分类方法
Kadhim Survey on supervised machine learning techniques for automatic text classification
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
Fong et al. Accelerated PSO swarm search feature selection for data stream mining big data
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
US20230206000A1 (en) Data-driven structure extraction from text documents
CN108460089A (zh) 基于Attention神经网络的多元特征融合中文文本分类方法
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
Lei et al. Patent analytics based on feature vector space model: A case of IoT
CN106611052A (zh) 文本标签的确定方法及装置
CN108009148A (zh) 基于深度学习的文本情感分类表示方法
CN109241377A (zh) 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN110516074A (zh) 一种基于深度学习的网站主题分类方法及装置
CN107220311A (zh) 一种利用局部嵌入话题建模的文本表示方法
EP4226283A1 (en) Systems and methods for counterfactual explanation in machine learning models
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
Sadr et al. Convolutional neural network equipped with attention mechanism and transfer learning for enhancing performance of sentiment analysis
CN111680225A (zh) 基于机器学习的微信金融消息分析方法及***
CN112183652A (zh) 一种联邦机器学习环境下的边缘端偏见检测方法
CN112784013A (zh) 一种基于上下文语义的多粒度文本推荐方法
Chakraborty et al. Bangla document categorisation using multilayer dense neural network with tf-idf
CN108595909A (zh) 基于集成分类器的ta蛋白靶向预测方法
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant