CN115309891A - 一种文本分类方法、装置、设备及计算机存储介质 - Google Patents
一种文本分类方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN115309891A CN115309891A CN202110502245.4A CN202110502245A CN115309891A CN 115309891 A CN115309891 A CN 115309891A CN 202110502245 A CN202110502245 A CN 202110502245A CN 115309891 A CN115309891 A CN 115309891A
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- probability distribution
- matrix
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类方法、装置、设备及计算机存储介质。所述方法包括:对获取到的目标文本进行分词处理,得到共现矩阵和多个不同的分词;将共现矩阵和多个不同的分词输入预先构建的语义分析模型,得到多个隐藏变量在目标文本上的条件概率分布结果,其中,多个隐藏变量包含多个不同的分词;根据条件概率分布结果,计算目标文本和预设文本库中的每一个预设文本之间的文本相似度,确定相似度矩阵;根据聚类算法和相似度矩阵,对目标文本进行聚类分析,得到文本分类结果。根据本申请实施例的文本分类方法,能够精确提取出隐藏的同义或者近义的垃圾信息,进而可以降低文本匹配的失误率。
Description
技术领域
本申请属于文本分析技术领域,尤其涉及一种文本分类方法、装置、设备及计算机存储介质。
背景技术
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。而文本聚类技术在信息分析方面具有较强的灵活性和自动处理能力,已经成为对文本信息进行有效组织和导航的重要手段。
近些年来,开发人员致力于聚类算法的优化研究,如结构性聚类、分散性聚类、谱聚类、层次聚类、密度聚类、平衡迭代规约和聚类以及均值飘移聚类等算法,这些聚类算法很好的应用到了文本分析中。
但是,通过这些传统的聚类算法对文本信息进行处理时,容易忽略词与词之间的语义以及词本身的同义或多义,导致文本匹配失误率较高。
发明内容
本申请实施例提供一种文本分类方法、装置、设备及计算机存储介质,能够精确提取出隐藏的同义或者近义的垃圾信息,进而可以降低文本匹配的失误率。
第一方面,本申请实施例提供一种文本分类方法,方法包括:
对获取到的目标文本进行分词处理,得到共现矩阵和多个不同的分词,其中,所述共现矩阵为所述多个不同的分词中每一个分词在所述目标文本中的权重构成的矩阵;
将所述共现矩阵和所述多个不同的分词输入预先构建的语义分析模型,得到多个隐藏变量在所述目标文本上的条件概率分布结果,其中,所述条件概率分布结果用于指示所述目标文本的隐含语义信息,所述多个隐藏变量包含所述多个不同的分词;
根据所述条件概率分布结果,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,确定相似度矩阵;
根据聚类算法和所述相似度矩阵,对所述目标文本进行聚类分析,得到文本分类结果。
第二方面,本申请实施例提供了一种文本分类装置,装置包括:
分词模块,用于对获取到的目标文本进行分词处理,得到共现矩阵和多个不同的分词,其中,所述共现矩阵为所述多个不同的分词中每一个分词在所述目标文本中的权重构成的矩阵;
语义分析模块,用于将所述共现矩阵和所述多个不同的分词输入预先构建的语义分析模型,得到多个隐藏变量在所述目标文本上的条件概率分布结果,其中,所述条件概率分布结果用于指示所述目标文本的隐含语义信息,所述多个隐藏变量包含所述多个不同的分词;
矩阵确定模块,用于根据所述条件概率分布结果,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,确定相似度矩阵;
分类模块,用于根据聚类算法和所述相似度矩阵,对所述目标文本进行聚类分析,得到文本分类结果。
第三方面,本申请实施例提供了一种文本分类设备,设备包括:
处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如上述实施方式中任意一项所述的文本分类方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述实施方式中任意一项所述的文本分类方法。
本申请实施例的文本分类方法、装置、设备及计算机存储介质,通过将获取的目标文本进行分词处理之后,将得到的共现矩阵和多个不同的分词输入预先训练的语义分析模型,得到多个隐藏变量和目标文本的语义关系的条件概率分布结果,该条件概率分布结果是考虑到分词的一词多义等语义问题计算的概率,计算结果的准确性更高;然后根据条件概率分布结果,计算目标文本和预设文本库中的每一个预设文本之间的相似度,确定相似度矩阵,最后根据聚类算法和相似度矩阵,对目标文本进行聚类。如此,通过本申请的文本分类方法,根据预先构建的语义分析模型,能够更加全面地识别词与词之间以及词本身的隐藏含义,确定出分词在目标文本中的潜在语义信息,然后根据隐藏向量在目标文本中的条件概率分布结果来计算文本之间的相似度,使得利用聚类算法聚类的聚类结果更加准确,进而降低了文本匹配的失误率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的文本分类方法的流程示意图;
图2是本申请一个实施例提供的文本分类装置的结构示意图;
图3是本申请一个实施例提供的文本分类设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术问题,本申请实施例提供了一种文本分类方法、装置、设备及计算机存储介质,能够通过语义分析模型精确识别文本中词和词之间或者词本身的隐含语义信息,使得通过聚类算法对文本进行聚类分析的结果更加准确。
需要说明的是,本申请实施例提供的文本分类方法中,需要利用预先构建好的语义分析模型对文本中各个分词的隐含语义信息进行分析,因此,在利用语义分析模型进行语义分析之前,需要先构建语义分析模型。下面首先描述本申请实施例提供的语义分析模型的构建方法的具体实施方式。
本申请实施例提供一种语义分析模型的构建方法,可以通过以下步骤来实现:
一、获取样本集,所述样本集中包括样本文本集、样本分词集、样本共现矩阵和样本隐藏变量集,所述样本文本集包含多个样本文本,所述样本分词集包含多个样本分词,所述样本共现矩阵为所述多个样本分词在所述多个样本文本中的权重构成的矩阵,所述样本隐藏变量集包含多个样本隐藏变量。
在本申请实施例中,上述样本集可以是通过计算机本地数据库获取。
在一个示例中,上述样本文本集可以表示为D,具体地,D={d1,d2,…,dm},其中,m表示样本文本的数量;
上述样本分词集可以表示为S,具体地,S={s1,s2,…,sn},其中,n表示样本分词的数量;
上述样本共现矩阵可以表示为A,具体地,A=|aij|n×m,其中,aij表示样本分词sj在样本文本di中的权重值;
上述样本隐藏变量集可以表示为Z,具体地,Z={z1,z2,…,zr},其中,r表示样本隐藏变量的数量。
二、根据所述多个样本文本、所述多个样本分词、所述样本共现矩阵和所述多个样本隐藏变量,计算所述多个样本分词在所述多个样本文本上的第一概率分布、所述多个样本隐藏变量在所述多个样本文本上的第二概率分布和所述多个样本分词在所述多个样本隐藏变量上的第三概率分布。
在本申请实施例中,可以通过预设初始语义分析模型,将上述多个样本文本、多个样本分词、样本共现矩阵和多个样本隐藏变量输入初始语义分析模型来计算上述多个样本文本、多个样本分词、样本共现矩阵和多个样本隐藏变量之间的概率关系。
在一个示例中,上述样本共现矩阵可以表示为概率分布的形式,具体地,样本共现矩阵可以表示为P(di,sj),可以表示在样本文本di中,样本分词sj存在的概率。
上述第一概率分布可以表示为P(sj|di),可以表示在样本文本为di的条件下,样本分词sj存在的概率;
上述第二概率分布可以表示为P(zr|di),可以表示在样本文本为di的条件下,样本隐藏变量zr存在的概率;
上述第三概率分布可以表示为P(sj|zr),可以表示在样本隐藏变量为zr的条件下,样本分词sj存在的概率;
在一个示例中,上述第一概率分布、第二概率分布和第三概率分布,可以通过下述公式1和公式2得到:
P(di,sj)=P(di)P(sj|di) 公式1
P(sj|di)=∑seZP(sj|z)P(z|di) 公式2
另外,因为上述初始语义分析模型是混合模型,在给定条件下,上述样本隐藏变量zr和样本分词sj均为多项分布,所以要在最大程度上逼近样本文本和样本分词的分布式,需要求取P(di,sj)的似然函数的极大值。具体地,P(di,sj)的似然函数的极大值可以通过下述公式3得到:
其中,g(di,sj)表示在样本文本为di中,样本分词sj发生的次数。
三、针对所述第一概率分布、所述第二概率分布和所述第三概率分布,采用最大期望算法,对所述第二概率分布、所述第三概率分布和第四概率分布进行迭代计算,直至满足预设迭代停止条件,得到构建的语义分析模型,其中,所述第四概率分布用于指示所述多个样本隐藏变量在所述多个样本文本和所述多个样本分词上的概率分布,所述第四概率分布是根据所述第一概率分布、所述第二概率分布和所述第三概率分布计算得到的。
在本申请实施例中,通过上述公式3计算的P(di,sj)的极大值并不是最优解,因此,在概率隐藏语义分析中,还需要采用最大期望算法(Expectation-maximizationalgorithm,EM算法),重复估计上述初始语义分析模型中的参数,即重复计算上述第二概率分布和第三概率分布,直至达到迭代停止条件。
在一个示例中,上述第四概率分布可以表示为P(zr|di,sj),可以表示在样本文本为di,样本分词为sj的条件下,样本隐藏变量zr存在的概率,也可以理解为样本隐藏变量zr的后验概率,可以通过下述公式4计算得到。
在一个示例中,EM算法分为以下两个步骤:
3.1、E-步,利用当前参数P(sj|di)、P(zr|di)和P(sj|zr),可以通过下述公式4计算样本隐藏变量zr的后验概率:
3.2、M-步,基于上述后验概率,可以通过下述公式5和公式6重新计算初始语义分析模型中P(sj|zr)和P(zr|di)的估计值:
基于上述EM算法,重复计算P(zr|di,sj)、P(sj|zr)和P(zr|di)的值,直到P(zr|di)收敛,或者似然函数的期望值增加量小于预设阈值,停止迭代,得到P(zr|di)的最优解,得到构建好的语义分析模型。
需要说明的是,上述迭代停止条件可以根据具体的情况来设定,在此不作限制。
以上为本申请实施例提供的语义分析模型的构建方法的具体实施方式,上述构建的语义分析模型可应用于如下实施例提供的文本分类方法中。
基于此,通过上述方法构建的语义分析模型,最终能够得到隐藏变量在文本中的条件概率分布的最优解,条件概率分布(zr|di)可以表示文本中的隐含语义信息以及文本中的语义结构,能够解决无法识别出词和词之间隐藏的语义信息或者一词多义等语义问题。
下面结合附图1详细描述本申请提供的文本分类方法的具体实现方式。
图1示出了本申请一个实施例提供的文本分类方法的流程示意图。如图1所示,包括以下步骤:
步骤101,对获取到的目标文本进行分词处理,得到共现矩阵和多个不同的分词,其中,所述共现矩阵为所述多个不同的分词中每一个分词在所述目标文本中的权重构成的矩阵;
步骤102,将所述共现矩阵和所述多个不同的分词输入预先构建的语义分析模型,得到多个隐藏变量在所述目标文本上的条件概率分布结果,其中,所述条件概率分布结果用于指示所述目标文本的隐含语义信息,所述多个隐藏变量包含所述多个不同的分词;
步骤103,根据所述条件概率分布结果,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,确定相似度矩阵;
步骤104,根据聚类算法和所述相似度矩阵,对所述目标文本进行聚类分析,得到文本分类结果。
基于此,通过将获取的目标文本进行分词处理之后,将得到的共现矩阵和多个不同的分词输入预先训练的语义分析模型,得到多个隐藏变量和目标文本的语义关系的条件概率分布结果,该条件概率分布结果是考虑到分词的一词多义等语义问题计算的概率,计算结果的准确性更高;然后根据条件概率分布结果,计算目标文本和预设文本库中的每一个预设文本之间的相似度,确定相似度矩阵,最后根据聚类算法和相似度矩阵,对目标文本进行聚类。如此,通过本申请的文本分类方法,根据预先构建的语义分析模型,能够更加全面地识别词与词之间以及词本身的隐藏含义,确定出分词在目标文本中的潜在语义信息,然后根据隐藏向量在目标文本中的条件概率分布结果来计算文本之间的相似度,使得利用聚类算法聚类的聚类结果更加准确,进而降低了文本匹配的失误率。
在上述步骤101中,首先,获取目标文本,并对目标文本进行分词处理,最终可以得到共现矩阵和多个不同的分词。
在存在隐含语义的目标文本中,一般会用大量的特殊字符或者无意义特殊文字干扰相似度判断,因此,在本申请实施例中,可以对目标文本进行分词处理,剔除这些干扰型的特殊字符,并从多个分词中提取特征项。
具体地,上述对获取到的目标文本进行分词处理,可以通过以下步骤完成:
根据预设的分词规则,对所述目标文本进行分词,得到多个分词;
对所述多个分词进行降维和加权处理,得到共现矩阵和多个不同的分词。
基于此,通过对目标文本进行分词处理,将得到的分词通过降维以及加权处理,提取出多个不同的分词,由于剔除了干扰型的字符,并对分词进行了特征提取,因此,根据提取出多个不同的分词进行文本聚类,得到的聚类结果更加准确。
本申请实施例中,上述预设的分词规则可以是预设语料库中的语义分类算法,在一个示例中,根据语义分类,上述多个分词中的每一个分词都可以是一个字,也可以是一个词,还可以是一句话;或者,上述预设的分词规则也可以是根据具体地应用场景设置的分词规则,在一个示例中,根据需要规定,分词的字数不可以超过5个字。
例如,目标文本内含有大段长短语句,根据预设的分类规则,将其进行分词处置,比如,“今天天气很好”,可以分词为三个词汇:“今天”、“天气”、“很好”;又例如,目标文本内含有无用词,根据预设的分类规则,将无用词去除,比如,“相册看了吗乌乎,看网址:xxx”,需要将停用词“乌乎”去掉。
另外,将目标文本分词之后,需要对得到的多个分词进行降维和加权处理,在一个示例中,上述对得到的多个分词进行降维和加权处理可以是利用信息递增的特征提取方法来处理。具体地,可以通过下述信息增益计算公式,也就是公式7计算得到:
其中,T表示分词特征项,ci为文本类别,P(ci)表示ci类文本在预设文本库中出现概率,P(T)为包含分词特征项T的文本的概率,P(ci|T)表示包含分词特征项T的文本属于ci类的概率。
需要说明的是,上述对所述多个分词进行降维和加权处理,可以理解为是对多个分词进行特征提取的过程,因此,除了上述的信息递增的特征提取方法,也可以选择本领域常用的其他的特征提取方法,在此不做限定。
在上述步骤102中,将上述步骤101得到的共现矩阵和多个不同的分词输入预先构建的语义分析模型中,可以得到多个隐藏变量在目标文本上的条件概率分布结果。
本申请实施例中,在构建语义分析模型的时候,在语义分析模型中包含隐藏变量集合,即可以理解为隐藏变量集就是上述样本隐藏变量集Z。而且隐藏变量集Z可以包含上述多个不同的分词。
另外,由于上述条件概率分布结果是隐藏变量集Z中的多个隐藏变量在目标文本上的条件概率分布结果,因此,该条件概率分布结果可以用于表示目标文本的隐含语义信息。
在一个示例中,上述目标文本可以表示为d0,在步骤101对文本d0进行分词处理之后,得到多个不同的分词组成的集合S0和共现矩阵A0,将S0和A0输入预先构建的语义分析模型中,可以得到隐藏变量集Z中的r个隐含变量在目标文本d0的条件概率分布P(zr|d0)。
在上述步骤103中,可以通过上述步骤102得到的条件概率分布结果,计算目标文本和预设文本库中的每一预设文本之间的相似度,确定出相似度矩阵。
需要说明的是,在本申请实施例中,上述预设文本库可以理解为上述构建模型过程中获取的样本文本集D,通过计算目标文本和样本文本集D中每一个样本文本的相似度,确定相似度矩阵。
具体地,上述根据所述条件概率分布结果,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,确定相似度矩阵,可以包括以下步骤:
从所述条件概率分布结果中获取所述多个隐藏变量中每个隐藏变量对应的概率值;
根据所述概率值,构建所述目标文本的隐藏变量向量,其中,所述隐藏变量向量用于指示所述目标文本向量,所述目标文本向量用于指示所述目标文本的隐含语义信息;
根据所述目标文本向量,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,得到多个文本相似度;
根据所述多个文本相似度,确定相似度矩阵。
基于此,通过每个隐藏变量对应的概率值构建目标文本向量,并计算目标文本向量和预设文本库中的每一个预设文本之间的文本相似度,使得得到的相似度矩阵更加准确,聚类得到的目标文本中的隐含语义也更加精确。
在一个示例中,上述每个隐藏变量对应的概率值可以表示为p0,r,即表示隐藏变量zr在目标文本的d0中的概率值,由于有r个隐藏变量,因此,可以获取到r个概率值,因此,上述目标文本对应的隐藏变量向量可以表示为dz0=(p0,1,p0,2,…,p0,r),隐藏变量向量dz0即为目标文本向量。
在确定目标文本向量之后,上述根据所述目标文本向量,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,得到多个文本相似度,可以包括以下步骤:
获取所述预设文本库中每一个预设文本的预设文本向量,其中,所述预设文本向量用于指示所述多个隐藏变量和所述预设文本的语义关系;
利用夹角余弦相似度计算公式,计算所述目标文本向量和每一个所述预设文本的预设文本向量的相似度,得到多个向量相似度,其中,所述向量相似度用于指示所述文本相似度。
基于此,通过夹角余弦公式计算目标文本向量和预设文本库中的文本向量的相似度,相对于现有的相似度计算方式,去掉了人为选取参数的步骤,排除了不确定因素的影响,提高了聚类的稳定性以及准确性。
在一个示例中,上述文本库中每一个预设文本的预设文本向量可以表示为dzi=(pi,1,pi,2,…,pi,r),即表示预设文本di对应的预设文本向量。
将目标文本向量dz0和每一个预设文本向量dzi代入夹角余弦相似度计算公式,即下述公式8,计算dz0和dzi的向量相似度,即目标文本d0和预设文本di的文本相似度。
由于上述的样本文本集D共有m个预设文本,因此,可以得到m个文本相似度,根据m个文本相似度,可以确定相似度矩阵W。
在上述步骤104中,根据上述步骤103确定的相似度矩阵,利用聚类算法对目标文本进行聚类分析,得到文本分类结果。
在本申请实施例中,上述聚类算法可以是K-均值聚类算法,也可以是层次聚类等等,由于应用到相似度矩阵的概念,因此,上述聚类算法可以是任一应用相似度矩阵概念的算法,在此不作限定。
具体地,上述根据聚类算法和所述相似度矩阵,对所述目标文本进行聚类分析,得到文本分类结果,可以包括以下步骤:
对所述相似度矩阵进行拉普拉斯变换,得到拉普拉斯矩阵;
基于预设的特征向量提取规则,从所述拉普拉斯矩阵中获取目标特征向量;
根据聚类算法和所述目标特征向量,对所述目标文本进行聚类,得到聚类结果,所述聚类结果用于指示所述目标文本的多个隐含语义类别。
基于此,通过对相似度矩阵进行拉普拉斯变换,确定归一化的拉普拉斯矩阵,并且对拉普拉斯矩阵进行处理,提取目标特征向量,然后根据聚类算法和目标特征向量,对目标文本进行聚类。如此,通过对相似度矩阵进行拉普拉斯变换来提取目标特征向量,可以提高聚类结果的准确率,进而提高文本匹配的准确度。
在本申请实施例中,上述对所述相似度矩阵进行拉普拉斯变换,得到拉普拉斯矩阵,可以是通过归一化拉普拉斯公式计算得到,在一个示例中,可以通过下述公式9得到归一化的拉普拉斯矩阵:
其中,D表示相似度矩阵W的对角矩阵。
其次,在一个示例中,上述预设的特征向量提取规则可以是根据具体的应用场景制定的提取规则,具体地,在通过公式9计算得到归一化拉普拉斯矩阵Leqz之后,可以通过特征值计算公式,计算Leqz的特征值,可知,Leqz的特征值有多个,可以选择特征值最大的前K个特征值所对应的特征向量作为目标特征向量,上述目标特征向量可以表示为{x1,x2,…,xk}∈Rk×n,其中,xk表示其中任一个目标特征向量。
在一个示例中,上述根据聚类算法和所述目标特征向量,对所述目标文本进行聚类,得到聚类结果,具体地,可以是基于上述目标特征向量,构造特征矩阵Y,Y可以通过下述公式10计算得到:
Y=[x1,x2,…,xk]T=[y1,y2,…,yn] 公式10
其中,可以将上述矩阵Y中的每一行看作一个K维空间向量,即可以得到n个向量,然后通过K-均值聚类算法,对特征矩阵Y进行聚类分析,最终得到聚类结果,该聚类结果可以理解为是将目标文本按照隐含语义分为了K个类。
另外,在得到上述文本分类结果之后,还可以对所述文本分类结果进行验证,计算聚类准确率。上述聚类准确率可以用来衡量聚类效果,在一个示例中,可以通过聚类准确率公式,即下述公式11计算聚类准确率:
其中,δ为尺度参数。
例如,现有算法需要人为选取尺度参数δ,首先需确定尺度参数的最优值,经过试验表明,现有算法在尺度参数δ为20的时候,聚类精准度最高,因此现有算法以此为标准进行聚类分析;但是,在本申请中,同样选取聚类精准度较高的潜在因子进行分析,即潜在因子个数为35,在这里,潜在因子可以理解为上述将上述矩阵Y中的每一行看作一个K维空间向量,即可以得到n个向量,n取值35。
依据选取出的尺度参数及语义分析中的潜在因子进行聚类对比分析,选择维度为600、800、1000,结果如下表:
维度 | 现有算法聚类平均精准度 | 本提案的新型聚类方法精准度 |
600 | 0.6506 | 0.7098 |
800 | 0.6893 | 0.7212 |
1000 | 0.7059 | 0.7387 |
实验结果表明,本申请的文本分类方法的聚类精准度要高于现有算法。
图2示出了本申请实施例提供的文本分类装置的结构示意图。如图2所示,***终端的确定装置200包括:
分词模块201,用于对获取到的目标文本进行分词处理,得到共现矩阵和多个不同的分词,其中,所述共现矩阵为所述多个不同的分词中每一个分词在所述目标文本中的权重构成的矩阵;
语义分析模块202,用于将所述共现矩阵和所述多个不同的分词输入预先构建的语义分析模型,得到多个隐藏变量在所述目标文本上的条件概率分布结果,其中,所述条件概率分布结果用于指示所述目标文本的隐含语义信息,所述多个隐藏变量包含所述多个不同的分词;
矩阵确定模块203,用于根据所述条件概率分布结果,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,确定相似度矩阵;
分类模块204,用于根据聚类算法和所述相似度矩阵,对所述目标文本进行聚类分析,得到文本分类结果。
可选的,所述矩阵确定模块203,具体包括:
概率值提取单元,用于从所述条件概率分布结果中获取所述多个隐藏变量中每个隐藏变量对应的概率值;
向量构建单元,用于根据所述概率值,构建所述目标文本的隐藏变量向量,其中,所述隐藏变量向量用于指示所述目标文本向量,所述目标文本向量用于指示所述目标文本的隐含语义信息;
相似度计算单元,用于根据所述目标文本向量,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,得到多个文本相似度;
相似度矩阵确定单元,用于根据所述多个文本相似度,确定相似度矩阵。
可选的,所述相似度计算单元,具体用于:
获取所述预设文本库中每一个预设文本的预设文本向量,其中,所述预设文本向量用于指示所述多个隐藏变量和所述预设文本的语义关系;
利用夹角余弦相似度计算公式,计算所述目标文本向量和每一个所述预设文本的预设文本向量的相似度,得到多个向量相似度,其中,所述向量相似度用于指示所述文本相似度。
可选的,所述分类模块204,具体用于:
对所述相似度矩阵进行拉普拉斯变换,得到拉普拉斯矩阵;
基于预设的特征向量提取规则,从所述拉普拉斯矩阵中获取目标特征向量;
根据聚类算法和所述目标特征向量,对所述目标文本进行聚类,得到聚类结果,所述聚类结果用于指示所述目标文本的多个隐含语义类别。
可选的,所述装置200,还包括:
样本集获取模块,用于获取样本集,所述样本集中包括样本文本集、样本分词集、样本共现矩阵和样本隐藏变量集,所述样本文本集包含多个样本文本,所述样本分词集包含多个样本分词,所述样本共现矩阵为所述多个样本分词在所述多个样本文本中的权重构成的矩阵,所述样本隐藏变量集包含多个样本隐藏变量;
第一计算模块,用于根据所述多个样本文本、所述多个样本分词、所述样本共现矩阵和所述多个样本隐藏变量,计算所述多个样本分词在所述多个样本文本上的第一概率分布、所述多个样本隐藏变量在所述多个样本文本上的第二概率分布和所述多个样本分词在所述多个样本隐藏变量上的第三概率分布;
第二计算模块,用于针对所述第一概率分布、所述第二概率分布和所述第三概率分布,采用最大期望算法,对所述第二概率分布、所述第三概率分布和第四概率分布进行迭代计算,直至满足预设迭代停止条件,得到构建的语义分析模型,其中,所述第四概率分布用于指示所述多个样本隐藏变量在所述多个样本文本和所述多个样本分词上的概率分布,所述第四概率分布是根据所述第一概率分布、所述第二概率分布和所述第三概率分布计算得到的。
可选的,所述分词模块201,具体用于:
根据预设的分词规则,对所述目标文本进行分词,得到多个分词;
对所述多个分词进行降维和加权处理,得到共现矩阵和多个不同的分词。
可选的,所述装置200,还包括:
验证模块,用于对所述文本分类结果进行验证,计算聚类准确率。
基于此,通过将获取的目标文本进行分词处理之后,将得到的共现矩阵和多个不同的分词输入预先训练的语义分析模型,得到多个隐藏变量和目标文本的语义关系的条件概率分布结果,该条件概率分布结果是考虑到分词的一词多义等语义问题计算的概率,计算结果的准确性更高;然后根据条件概率分布结果,计算目标文本和预设文本库中的每一个预设文本之间的相似度,确定相似度矩阵,最后根据聚类算法和相似度矩阵,对目标文本进行聚类。如此,通过本申请的文本分类方法,根据预先构建的语义分析模型,能够更加全面地识别词与词之间以及词本身的隐藏含义,确定出分词在目标文本中的潜在语义信息,然后根据隐藏向量在目标文本中的条件概率分布结果来计算文本之间的相似度,使得利用聚类算法聚类的聚类结果更加准确,进而降低了文本匹配的失误率。
本申请实施例提供的文本分类装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
图3示出了本申请实施例提供的文本分类设备的硬件结构示意图。
该文本分类设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器702是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请的第一方面的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种文本分类方法。
在一个示例中,文本分类设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将文本分类设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该文本分类设备可以基于语义分析模型输出的条件概率分布结果执行本申请实施例中的文本分类方法,从而实现结合图1描述的文本分类方法和装置。
另外,结合上述实施例中的文本分类方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种文本分类方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
上面参考根据本申请的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
对获取到的目标文本进行分词处理,得到共现矩阵和多个不同的分词,其中,所述共现矩阵为所述多个不同的分词中每一个分词在所述目标文本中的权重构成的矩阵;
将所述共现矩阵和所述多个不同的分词输入预先构建的语义分析模型,得到多个隐藏变量在所述目标文本上的条件概率分布结果,其中,所述条件概率分布结果用于指示所述目标文本的隐含语义信息,所述多个隐藏变量包含所述多个不同的分词;
根据所述条件概率分布结果,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,确定相似度矩阵;
根据聚类算法和所述相似度矩阵,对所述目标文本进行聚类分析,得到文本分类结果。
2.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述条件概率分布结果,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,确定相似度矩阵,具体包括:
从所述条件概率分布结果中获取所述多个隐藏变量中每个隐藏变量对应的概率值;
根据所述概率值,构建所述目标文本的隐藏变量向量,其中,所述隐藏变量向量用于指示所述目标文本向量,所述目标文本向量用于指示所述目标文本的隐含语义信息;
根据所述目标文本向量,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,得到多个文本相似度;
根据所述多个文本相似度,确定相似度矩阵。
3.根据权利要求2所述的文本分类方法,其特征在于,所述根据所述目标文本向量,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,得到多个文本相似度,具体包括:
获取所述预设文本库中每一个预设文本的预设文本向量,其中,所述预设文本向量用于指示所述多个隐藏变量和所述预设文本的语义关系;
利用夹角余弦相似度计算公式,计算所述目标文本向量和每一个所述预设文本的预设文本向量的相似度,得到多个向量相似度,其中,所述向量相似度用于指示所述文本相似度。
4.根据权利要求1所述的文本分类方法,其特征在于,所述根据聚类算法和所述相似度矩阵,对所述目标文本进行聚类分析,得到文本分类结果,具体包括:
对所述相似度矩阵进行拉普拉斯变换,得到拉普拉斯矩阵;
基于预设的特征向量提取规则,从所述拉普拉斯矩阵中获取目标特征向量;
根据聚类算法和所述目标特征向量,对所述目标文本进行聚类,得到聚类结果,所述聚类结果用于指示所述目标文本的多个隐含语义类别。
5.根据权利要求1所述的文本分类方法,其特征在于,所述对获取到的目标文本进行分词处理,得到共现矩阵和多个不同的分词之前,所述方法还包括:
获取样本集,所述样本集中包括样本文本集、样本分词集、样本共现矩阵和样本隐藏变量集,所述样本文本集包含多个样本文本,所述样本分词集包含多个样本分词,所述样本共现矩阵为所述多个样本分词在所述多个样本文本中的权重构成的矩阵,所述样本隐藏变量集包含多个样本隐藏变量;
根据所述多个样本文本、所述多个样本分词、所述样本共现矩阵和所述多个样本隐藏变量,计算所述多个样本分词在所述多个样本文本上的第一概率分布、所述多个样本隐藏变量在所述多个样本文本上的第二概率分布和所述多个样本分词在所述多个样本隐藏变量上的第三概率分布;
针对所述第一概率分布、所述第二概率分布和所述第三概率分布,采用最大期望算法,对所述第二概率分布、所述第三概率分布和第四概率分布进行迭代计算,直至满足预设迭代停止条件,得到构建的语义分析模型,其中,所述第四概率分布用于指示所述多个样本隐藏变量在所述多个样本文本和所述多个样本分词上的概率分布,所述第四概率分布是根据所述第一概率分布、所述第二概率分布和所述第三概率分布计算得到的。
6.根据权利要求1所述的文本分类方法,其特征在于,所述对获取到的目标文本进行分词处理,得到共现矩阵和多个不同的分词,具体包括:
根据预设的分词规则,对所述目标文本进行分词,得到多个分词;
对所述多个分词进行降维和加权处理,得到共现矩阵和多个不同的分词。
7.根据权利要求1所述的文本分类方法,其特征在于,所述根据聚类算法和所述相似度矩阵,对所述目标文本进行聚类分析,得到文本分类结果之后,还包括:
对所述文本分类结果进行验证,计算聚类准确率。
8.一种文本分类装置,其特征在于,所述装置包括:
分词模块,用于对获取到的目标文本进行分词处理,得到共现矩阵和多个不同的分词,其中,所述共现矩阵为所述多个不同的分词中每一个分词在所述目标文本中的权重构成的矩阵;
语义分析模块,用于将所述共现矩阵和所述多个不同的分词输入预先构建的语义分析模型,得到多个隐藏变量在所述目标文本上的条件概率分布结果,其中,所述条件概率分布结果用于指示所述目标文本的隐含语义信息,所述多个隐藏变量包含所述多个不同的分词;
矩阵确定模块,用于根据所述条件概率分布结果,计算所述目标文本和预设文本库中的每一个预设文本之间的文本相似度,确定相似度矩阵;
分类模块,用于根据聚类算法和所述相似度矩阵,对所述目标文本进行聚类分析,得到文本分类结果。
9.一种文本分类设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的文本分类方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110502245.4A CN115309891A (zh) | 2021-05-08 | 2021-05-08 | 一种文本分类方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110502245.4A CN115309891A (zh) | 2021-05-08 | 2021-05-08 | 一种文本分类方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115309891A true CN115309891A (zh) | 2022-11-08 |
Family
ID=83853667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110502245.4A Pending CN115309891A (zh) | 2021-05-08 | 2021-05-08 | 一种文本分类方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115309891A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273015A (zh) * | 2023-11-22 | 2023-12-22 | 湖南省水运建设投资集团有限公司 | 一种语义分析的电子文件归档分类方法 |
-
2021
- 2021-05-08 CN CN202110502245.4A patent/CN115309891A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273015A (zh) * | 2023-11-22 | 2023-12-22 | 湖南省水运建设投资集团有限公司 | 一种语义分析的电子文件归档分类方法 |
CN117273015B (zh) * | 2023-11-22 | 2024-02-13 | 湖南省水运建设投资集团有限公司 | 一种语义分析的电子文件归档分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN110362677B (zh) | 文本数据类别的识别方法及装置、存储介质、计算机设备 | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN112347778A (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN111191442B (zh) | 相似问题生成方法、装置、设备及介质 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN109726391B (zh) | 对文本进行情感分类的方法、装置及终端 | |
CN112381038B (zh) | 一种基于图像的文本识别方法、***和介质 | |
CN113221918B (zh) | 目标检测方法、目标检测模型的训练方法及装置 | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
US11281714B2 (en) | Image retrieval | |
Sundara Vadivel et al. | An efficient CBIR system based on color histogram, edge, and texture features | |
CN111506726B (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
CN113807073B (zh) | 文本内容异常检测方法、装置以及存储介质 | |
CN110929525A (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
CN115953123A (zh) | 机器人自动化流程的生成方法、装置、设备及存储介质 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN115309891A (zh) | 一种文本分类方法、装置、设备及计算机存储介质 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN113343920A (zh) | 人脸识别照片的分类方法、装置、电子设备和存储介质 | |
CN111523311B (zh) | 一种搜索意图识别方法及装置 | |
CN107533672A (zh) | 模式识别装置、模式识别方法以及程序 | |
CN112417147A (zh) | 训练样本的选取方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |