CN109492093A - 基于高斯混合模型和em算法的文本分类方法及电子装置 - Google Patents
基于高斯混合模型和em算法的文本分类方法及电子装置 Download PDFInfo
- Publication number
- CN109492093A CN109492093A CN201811159037.3A CN201811159037A CN109492093A CN 109492093 A CN109492093 A CN 109492093A CN 201811159037 A CN201811159037 A CN 201811159037A CN 109492093 A CN109492093 A CN 109492093A
- Authority
- CN
- China
- Prior art keywords
- training sample
- indicate
- text
- training
- hybrid models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于大数据分析技术领域,公开了一种基于高斯混合模型和EM算法的文本分类方法,应用于电子装置,包括以下步骤:步骤S1、对已有的数据集文本进行预处理,构建训练集,包括有类标训练样本和无类标训练样本;步骤S2、构建基于EM算法的高斯混合模型;步骤S3、根据所述有类标训练样本初始化所述高斯混合模型的参数;步骤S4、用EM算法训练所述高斯混合模型的参数,得到文本分类模型;步骤S5、利用文本分类模型对待分类的文本进行分类。本发明对训练样本进行半监督学习,降低了对有类标训练样本的数据资源数量的依赖,利用无类标训练样本提升了文本分类模型的精度,提高文本分类的准确度。本发明还公开了一种电子装置。
Description
技术领域
本发明涉及大数据分析技术领域,尤其涉及基于高斯混合模型和EM算法的文本分类方法及电子装置。
背景技术
文本分类主要用于信息检索、机器翻译、自动文摘以及信息过滤等。随着信息技术发展,数据呈***式增长,具有高维和海量数据的特征,文本分类模型需要大量标注样本进行训练,但给出的已标注样本所能提供的信息可能主观而有限,同样,未标注样本可能含有丰富的文本分布信息。目前,采用监督学习模型对文本进行分类,但是监督学习模型的精度需要依赖于含标注的数据资源数量,且现有的朴素贝叶斯算法简单高效,较其他分类算法时间复杂度低、效率高,而被广泛应用于分类任务中,但是朴素贝叶斯算法在处理海量文本分类数据时,其准确率同样地依赖于含标注的训练数据,使得训练模型精度依赖于已标注的训练样本,训练模型的精度低,影响分类效果。
发明内容
本发明提供一种基于高斯混合模型和EM算法的文本分类方法及电子装置,以解决训练模型精度对已标注训练样本的依赖性较高,而影响分类效果的问题,从而可以通过提升模型精度提高对文本分类的准确度。
为了实现上述目的,本发明的一个方面是提供一种基于高斯混合模型和EM算法的文本分类方法,应用于电子装置,包括以下步骤:
步骤S1、对已有的数据集文本进行预处理,构建训练集,所述训练集包括有类标训练样本和无类标训练样本;
步骤S2、构建基于EM算法的高斯混合模型;
步骤S3、根据所述有类标训练样本初始化所述高斯混合模型的参数;
步骤S4、用EM算法训练所述高斯混合模型的参数,得到文本分类模型;
步骤S5、利用文本分类模型对待分类的文本进行分类。
优选地,所述步骤S4包括:
S41、将经过初始化的高斯混合模型参数代入EM迭代方程;
S42、通过所述EM迭代方程中的E步得到所述无类标训练样本的预测值及相应的预测类标,将预测类标引入训练集,更新所述训练集;
S43、利用更新后的训练集,通过所述EM迭代方程中的M步更新所述高斯混合模型的参数,完成一次迭代;
S44、判断高斯混合模型训练是否满足结束条件,若满足结束条件,则输出文本分类模型,若不满足结束条件,则返回步骤S42,继续训练高斯混合模型的参数,其中,所述结束条件包括第一结束条件和/或第二结束条件,所述第一结束条件为迭代次数大于设定的最大迭代次数,第二结束条件为相邻两次迭代通过E步得到的预测值的差值小于设定目标值。
优选地,所述步骤S2中,基于EM算法的高斯混合模型如下式所示:
其中,i表示训练样本所属文本类别的索引,x表示训练样本的特征向量,π表示高斯混合模型的混合系数,μ表示特征向量x的均值向量,∑表示协方差矩阵,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,N(x|μi,∑i)表示μi和∑i条件下训练样本x属于第i类文本的概率,p表示训练样本x的条件概率。
优选地,步骤S3中,所述高斯混合模型的参数包括μi、∑i、πi,根据下式初始化求解所述高斯混合模型的参数:
其中,j表示训练样本的索引,l表示有类标训练样本的数量,n表示训练样本的数量,i表示训练样本所属文本类别的索引,x表示训练样本的特征向量,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。
优选地,所述EM迭代方程中的E步按照下式计算得到无类标训练样本的预测值:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,m表示训练样本所属文本类别的总数量,xj表示第j个训练样本的特征向量,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,N(xj|μi,∑i)表示μi和∑i条件下第j个训练样本属于第i类文本的概率,γij表示第j个训练样本属于第i类文本类别的概率值。
优选地,所述EM迭代方程中的M步按照下式更新所述高斯混合模型的参数:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,n表示训练样本的数量,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。
优选地,利用文本分类模型对待分类的文本进行分类包括:
对待分类的数据文本进行预处理,根据词向量库,将数据文本转化为词向量;
根据词向量获取数据文本相对应的特征向量,作为文本分类模型的输入;
将数据文本相对应的特征向量输入文本分类模型中;
通过所述文本分类模型输出待分类的数据文本属于各个文本类别的概率值,最大的概率值对应的文本类别即为待分类的数据文本所属的文本类别。
为了实现上述目的,本发明的另一个方面就是提供一种电子装置,包括:处理器;存储器,所述存储器中包括文本分类程序,所述处理器执行所述文本分类程序,实现如下步骤:
对已有的数据集文本进行预处理,构建训练集,所述训练集包括有类标训练样本和无类标训练样本;
构建基于EM算法的高斯混合模型;
根据所述有类标训练样本初始化所述高斯混合模型的参数;
用EM算法训练所述高斯混合模型的参数,得到文本分类模型;
利用文本分类模型对待分类的文本进行分类。
优选地,所述处理器用EM算法训练所述高斯混合模型的参数包括:
将经过初始化的高斯混合模型参数代入EM迭代方程;
通过所述EM迭代方程中的E步得到所述无类标训练样本的预测值及相应的预测类标,将预测类标引入训练集,更新所述训练集;
利用更新后的训练集,通过所述EM迭代方程中的M步更新所述高斯混合模型的参数,完成一次迭代;
判断高斯混合模型训练是否满足结束条件,若满足结束条件,则输出文本分类模型,若不满足结束条件,则继续训练高斯混合模型的参数,其中,所述结束条件包括第一结束条件和/或第二结束条件,所述第一结束条件为迭代次数大于设定的最大迭代次数,第二结束条件为相邻两次迭代通过E步得到的预测值的差值小于设定目标值。
优选地,所述EM迭代方程中的E步按照下式计算得到无类标训练样本的预测值:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,m表示训练样本所属文本类别的总数量,xj表示第j个训练样本的特征向量,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,N(xj|μi,∑i)表示μi和∑i条件下第j个训练样本属于第i类文本的概率,γij表示第j个训练样本属于第i类文本类别的概率值;
所述EM迭代方程中的M步按照下式更新所述高斯混合模型的参数:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,n表示训练样本的数量,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。
相对于现有技术,本发明具有以下优点和有益效果:
本发明所述基于高斯混合模型和EM算法的文本分类方法及电子装置,通过建立基于EM算法的高斯混合模型,利用高斯混合模型和EM算法完成对于无标注数据集的标注预测,实现对训练样本的半监督学习,降低训练模型对含标注的训练数据集的依赖,充分利用无标注数据进一步提升训练模型的精度,从而提高对文本分类的准确度,有效地进行文本分类。
附图说明
图1为本发明所述文本分类方法的流程示意图;
图2为本发明中文本分类程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,仅仅用以解释本发明,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明所述文本分类方法的流程示意图,如图1所示,本发明所述基于高斯混合模型和EM算法的文本分类方法,应用于电子装置,包括以下步骤:
步骤S1、对已有的数据集文本进行预处理,构建训练集,所述训练集包括有类标训练样本和无类标训练样本,其中,有类标训练样本表示该训练样本有与其相对应的类别标签,无类标训练样本表示该训练样本没有与其相对应的类别标签,类标是训练样本所属的类别标签的简称,下述均简称为类标;
步骤S2、构建基于EM算法的高斯混合模型;
步骤S3、根据所述有类标训练样本初始化所述高斯混合模型的参数;
步骤S4、用EM算法训练所述高斯混合模型的参数,得到文本分类模型;
步骤S5、利用文本分类模型对待分类的文本进行分类。
本发明通过建立基于EM算法的高斯混合模型,利用高斯混合模型和EM算法完成对于无标注数据集的标注预测,得到文本分类模型,实现对训练样本的半监督学习,降低了对有类标训练样本的数据资源数量的依赖,利用无类标训练样本提升了文本分类模型的精度,提高文本分类的准确度。
优选地,所述步骤S4包括:
S41、将经过初始化的高斯混合模型参数代入EM迭代方程;
S42、通过所述EM迭代方程中的E步得到所述无类标训练样本的预测值及相应的预测类标,将预测类标引入训练集,更新所述训练集;
S43、利用更新后的训练集,通过所述EM迭代方程中的M步更新所述高斯混合模型的参数,完成一次迭代;
S44、判断高斯混合模型训练是否满足结束条件,若满足结束条件,则输出文本分类模型,若不满足结束条件,则返回所述步骤S42,继续训练高斯混合模型的参数,其中,所述结束条件包括第一结束条件和/或第二结束条件,所述第一结束条件为迭代次数大于设定的最大迭代次数,第二结束条件为相邻两次迭代通过E步得到的预测值的差值小于设定目标值。
通过E步对无类标训练样本的类标进行更新,通过M步对高斯混合模型的参数进行更新,利用了无类标训练样本进行模型学习,提高模型的精度。
本发明的一个实施例中,所述步骤S1包括:构建词向量库;对数据集文本进行分词、词频统计和去重,根据所述词向量库,将数据集文本转化为词向量;从已有数据集文本中选择训练样本,包括有类标训练样本和无类标训练样本,根据训练样本相对应的词向量得到训练样本的特征向量;根据训练样本的特征向量和对应的类标构建训练集。例如,从已有数据集文本中选择其中的n个数据文本作为训练样本,获取训练文本对应的特征向量以及类标构建形成训练集,其中,在n个训练样本中,包括l个有类标训练样本和u个无类标训练样本,则构建的训练集为D={(x1,y1),(x2,y2),…,(xl,yl),xl+1,xl+2,…,xl+u},x表示训练样本的特征向量,y表示训练样本的类标。
需要说明的是,本发明中将数据集文本转化为词向量可以采用各种词向量模型,例如,Word2Vec模型、CBOW模型等。
在对数据集文本的处理中,去重是为了删除重复的关键词,以避免属于不同类别的文本中包含相同的关键词,影响分类结果。
本发明的一个实施例中,将训练样本相对应的词向量按照向量维度求取均值,得到训练样本的特征向量。
优选地,所述步骤S2中,基于EM算法的高斯混合模型如下式所示:
其中,i表示训练样本所属文本类别的索引,x表示训练样本的特征向量,π表示高斯混合模型的混合系数,μ表示特征向量x的均值向量,∑表示协方差矩阵,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,Nix|μi,∑i)表示μi和∑i条件下训练样本x属于第i类文本的概率,p表示训练样本x的条件概率。
优选地,步骤S3中,根据有类标训练样本初始化高斯混合模型的参数,所述参数包括μi、∑i、πi,根据下式求解所述高斯混合模型的初始参数:
其中,j表示训练样本的索引,l表示有类标训练样本的数量,n表示训练样本的数量,i表示训练样本所属文本类别的索引,x表示训练样本的特征向量,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。
优选地,所述步骤S42中,EM迭代方程中的E步按照下式计算得到无类标训练样本的预测值:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,m表示训练样本所属文本类别的总数量,xj表示第j个训练样本的特征向量,N(xj|μi,∑i)表示μi和∑i条件下第j个训练样本属于第i类文本的概率,γij表示第j个训练样本属于第i类文本类别的概率值。
将E步得到的γij作为各个无类标训练样本的预测值,根据γij的大小,由γij最大的值确定第j个无类标训练样本所属的文本类别,将此文本类别作为该无类标训练样本的预测类标,并将预测类标引入训练集中,使得训练集中的训练样本均含有类标,以更新后的训练集为基础进行高斯混合模型参数的训练。例如,根据步骤S3中得到的混合高斯模型的初始参数μi、∑i、πi,以及训练集中无类标训练样本{xl+1,xl+2,…,xl+u},通过E步的预测结果得到与无类标训练样本{xl+1,xl+2,…,xl+u}相对应的预测类标为{yl+1,yl+2,…,yl+u},将预测类标引入训练集,得到更新后的训练集D′={(x1,y1),(x2,y2),…,(xl,yl),(xl+1,yl+1),(xl+2,yl+2),…,(xl+u,yl+u)}。
优选地,所述步骤S43中,所述EM迭代方程中的M步按照下式更新所述高斯混合模型的参数:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,n表示训练样本的数量,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。对于有类标训练样本即j∈{1,2,…,l},训练样本所属类别与类标相对应时,γij值为1,训练样本所属类别与类标不对应时,γij值为0,例如,对于j∈{1,2,…,l}时,若仅有第1个和第2个训练样本所属类别为第i类,则γi1=1,γi2=1,而其余的γij=0,j∈{3,4,…,l}。对于无类标训练样本即j∈{l+1,l+2,…,n},γij值根据E步公式计算而得。
根据步骤S42更新得到的训练集D′={(x1,y1),(x2,y2),…,(xl,yl),(xl+1,yl+1),(xl+2,yl+2),…,(xl+u,yl+u)}通过M步进行高斯混合模型参数的更新。
利用更新后的高斯混合模型通过E步对无类标训练样本进行预测,得到无类标训练样本的预测类标,再次更新训练集,利用更新后的训练集通过M步再次更新高斯混合模型的参数,依次循环EM迭代方程的E步和M步,直至满足训练结束条件,高斯混合模型的参数趋于稳定,输出文本分类模型。
优选地,步骤S5中,利用文本分类模型对待分类的文本进行分类包括:
对待分类的数据文本进行预处理,根据词向量库,将数据文本转化为词向量;
根据词向量获取数据文本相对应的特征向量,作为文本分类模型的输入;
将数据文本相对应的特征向量输入文本分类模型中;
通过所述文本分类模型输出待分类的数据文本属于各个文本类别的概率值,根据概率值的大小确定待分类的数据文本所属的文本类别,其中,最大的概率值对应的文本类别即为待分类的数据文本所属的文本类别。
本发明所述基于高斯混合模型和EM算法的文本分类方法,应用于电子装置,该电子装置可以是智能手机、平板电脑、计算机等具有运算功能的终端设备。
所述电子装置包括:处理器;存储器,所述存储器中包括文本分类程序,所述处理器执行所述文本分类程序,实现如下步骤:
对已有的数据集文本进行预处理,构建训练集,所述训练集包括有类标训练样本和无类标训练样本;
构建基于EM算法的高斯混合模型;
根据所述有类标训练样本初始化所述高斯混合模型的参数;
用EM算法训练所述高斯混合模型的参数,得到文本分类模型;
利用文本分类模型对待分类的文本进行分类。
本发明中,处理器用于运行存储器中的存储程序,以实现文本分类,例如,处理器可以中央处理器、微处理器或其他数据处理芯片。
本发明中,存储器用于存储处理器需要执行的程序,包括至少一种类型的可读存储介质,例如,闪存、硬盘等非易失性存储介质。存储器可以是电子装置的内部存储单元,也可以是外部存储装置,例如插接式硬盘、闪存卡或其他类型的存储卡等。本发明并不限于此,存储器可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。
本发明所述电子装置利用高斯混合模型和EM算法完成对于无标注数据集的标注预测,得到文本分类模型,实现对训练样本的半监督学习,降低了对有类标训练样本的数据资源数量的依赖,利用无类标训练样本提升了文本分类模型的精度,提高文本分类的准确度。
本发明中,处理器执行文本分类程序,用EM算法训练所述高斯混合模型的参数包括:
将经过初始化的高斯混合模型参数代入EM迭代方程;
通过所述EM迭代方程中的E步得到所述无类标训练样本的预测值及相应的预测类标,将预测类标引入训练集,更新所述训练集;
利用更新后的训练集,通过所述EM迭代方程中的M步更新所述高斯混合模型的参数,完成一次迭代;
判断高斯混合模型训练是否满足结束条件,若满足结束条件,则输出文本分类模型,若不满足结束条件,则继续训练高斯混合模型的参数,其中,所述结束条件包括第一结束条件和/或第二结束条件,所述第一结束条件为迭代次数大于设定的最大迭代次数,第二结束条件为相邻两次迭代通过E步得到的预测值的差值小于设定目标值。
本发明的一个实施例中,对已有的数据集文本进行预处理,构建训练集包括:构建词向量库;对数据集文本进行分词、词频统计和去重,根据所述词向量库,将数据集文本转化为词向量;从已有数据集文本中选择训练样本,包括有类标训练样本和无类标训练样本,根据训练样本相对应的词向量得到训练样本的特征向量;根据训练样本的特征向量和对应的类标构建训练集。例如,从已有数据集文本中选择其中的n个数据文本作为训练样本,获取训练文本对应的特征向量以及类标构建形成训练集,其中,在n个训练样本中,包括l个有类标训练样本和u个无类标训练样本,则构建的训练集为D={(x1,y1),(x2,y2),…,(xl,yl),xl+1,xl+2,…,xl+u},x表示训练样本的特征向量,y表示训练样本的类标。
需要说明的是,本发明中将数据集文本转化为词向量可以采用各种词向量模型,例如,Word2Vec模型、CBOW模型等。
在对数据集文本的处理中,去重是为了删除重复的关键词,以避免属于不同类别的文本中包含相同的关键词,影响分类结果。
本发明的一个实施例中,将训练样本相对应的词向量按照向量维度求取均值,得到训练样本的特征向量。
优选地,基于EM算法的高斯混合模型如下式所示:
其中,i表示训练样本所属文本类别的索引,x表示训练样本的特征向量,π表示高斯混合模型的混合系数,μ表示特征向量x的均值向量,∑表示协方差矩阵,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,N(x|μi,∑i)表示μi和∑i条件下训练样本x属于第i类文本的概率,p表示训练样本x的条件概率。
优选地,根据有类标训练样本初始化高斯混合模型的参数,所述参数包括μi、∑i、πi,根据下式求解所述高斯混合模型的初始参数:
其中,j表示训练样本的索引,l表示有类标训练样本的数量,n表示训练样本的数量,i表示训练样本所属文本类别的索引,x表示训练样本的特征向量,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。
优选地,EM迭代方程中的E步按照下式计算得到无类标训练样本的预测值:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,m表示训练样本所属文本类别的总数量,xj表示第j个训练样本的特征向量,N(xj|μi,∑i)表示μi和∑i条件下第j个训练样本属于第i类文本的概率,γij表示第j个训练样本属于第i类文本类别的概率值。
将E步得到的γij作为各个无类标训练样本的预测值,根据γij的大小,由γij最大的值确定第j个无类标训练样本所属的文本类别,将此文本类别作为该无类标训练样本的预测类标,并将预测类标引入训练集中,使得训练集中的训练样本均含有类标,以更新后的训练集为基础进行高斯混合模型参数的训练。例如,根据混合高斯模型的初始参数μi、∑i、πi,以及训练集中无类标训练样本{xl+1,xl+2,…,xl+u},通过E步的预测结果得到与无类标训练样本{xl+1,xl+2,…,xl+u}相对应的预测类标为{yl+1,yl+2,…,yl+u},将预测类标引入训练集,得到更新后的训练集D′={(x1,y1),(x2,y2),…,(xl,yl),(xl+1,yl+1),(xl+2,yl+2),…,(xl+u,yl+u)}。
优选地,所述EM迭代方程中的M步按照下式更新所述高斯混合模型的参数:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,n表示训练样本的数量,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。对于有类标训练样本即j∈{1,2,…,l},训练样本所属类别与类标相对应时,γij值为1,训练样本所属类别与类标不对应时,γij值为0,例如,对于j∈{1,2,…,l}时,若仅有第1个和第2个训练样本所属类别为第i类,则γi1=1,γi2=1,而其余的γij=0,j∈{3,4,…,l}。对于无类标训练样本即j∈{l+1,l+2,…,n},γij值根据E步公式计算而得。
根据更新得到的训练集D′={(x1,y1),(x2,y2),…,(xl,yl),(xl+1,yl+1),(xl+2,yl+2),…,(xl+u,yl+u)}通过M步进行高斯混合模型参数的更新。
利用更新后的高斯混合模型通过E步对无类标训练样本进行预测,得到无类标训练样本的预测类标,再次更新训练集,利用更新后的训练集通过M步再次更新高斯混合模型的参数,依次循环EM迭代方程的E步和M步,直至满足训练结束条件,高斯混合模型的参数趋于稳定,输出文本分类模型。
优选地,利用文本分类模型对待分类的文本进行分类包括:
对待分类的数据文本进行预处理,根据词向量库,将数据文本转化为词向量;
根据词向量获取数据文本相对应的特征向量,作为文本分类模型的输入;
将数据文本相对应的特征向量输入文本分类模型中;
通过所述文本分类模型输出待分类的数据文本属于各个文本类别的概率值,根据概率值的大小确定待分类的数据文本所属的文本类别,其中,最大的概率值对应的文本类别即为待分类的数据文本所属的文本类别。
在本发明的一个实施例中,文本分类程序可以被分割成一个或多个模块,一个或多个模块被存储于存储器中,并由处理器执行,以实现文本分类。本发明所述模块为能够完成特定功能的一系列计算机程序指令段。图2为本发明中文本分类程序的模块示意图,如图2所示,训练集获取模块1、模型构建模块2、初始化模块3、模型训练模块4、分类模块5,各个模块所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
训练集获取模块1,对已有的数据集文本进行预处理,构建训练集,所述训练集包括有类标训练样本和无类标训练样本;
模型构建模块2,构建基于EM算法的高斯混合模型;
初始化模块3,根据所述有类标训练样本初始化所述高斯混合模型的参数;
模型训练模块4,用EM算法训练所述高斯混合模型的参数,得到文本分类模型;
分类模块5,利用文本分类模型对待分类的文本进行分类;
进一步地,所述模型训练模块4包括:
参数输入单元41,将经过初始化的高斯混合模型参数代入EM迭代方程;
类标预测单元42,通过所述EM迭代方程中的E步得到所述无类标训练样本的预测值及相应的预测类标,将预测类标引入训练集,更新所述训练集;
参数更新单元43,利用更新后的训练集,通过所述EM迭代方程中的M步更新所述高斯混合模型的参数,完成一次迭代;
判断单元44,判断高斯混合模型训练是否满足结束条件,若满足结束条件,则输出文本分类模型,若不满足结束条件,则循环EM迭代方程的E步和M步,训练高斯混合模型的参数,其中,所述结束条件包括第一结束条件和/或第二结束条件,所述第一结束条件为迭代次数大于设定的最大迭代次数,第二结束条件为相邻两次迭代通过E步得到的预测值的差值小于设定目标值。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于高斯混合模型和EM算法的文本分类方法,应用于电子装置,其特征在于,包括以下步骤:
步骤S1、对已有的数据集文本进行预处理,构建训练集,所述训练集包括有类标训练样本和无类标训练样本;
步骤S2、构建基于EM算法的高斯混合模型;
步骤S3、根据所述有类标训练样本初始化所述高斯混合模型的参数;
步骤S4、用EM算法训练所述高斯混合模型的参数,得到文本分类模型;
步骤S5、利用文本分类模型对待分类的文本进行分类。
2.根据权利要求1所述的文本分类方法,其特征在于,所述步骤S4包括:
S41、将经过初始化的高斯混合模型参数代入EM迭代方程;
S42、通过所述EM迭代方程中的E步得到所述无类标训练样本的预测值及相应的预测类标,将预测类标引入训练集,更新所述训练集;
S43、利用更新后的训练集,通过所述EM迭代方程中的M步更新所述高斯混合模型的参数,完成一次迭代;
S44、判断高斯混合模型训练是否满足结束条件,若满足结束条件,则输出文本分类模型,若不满足结束条件,则返回步骤S42,继续训练高斯混合模型的参数,其中,所述结束条件包括第一结束条件和/或第二结束条件,所述第一结束条件为迭代次数大于设定的最大迭代次数,第二结束条件为相邻两次迭代通过E步得到的预测值的差值小于设定目标值。
3.根据权利要求1所述的文本分类方法,其特征在于,所述步骤S2中,基于EM算法的高斯混合模型如下式所示:
其中,i表示训练样本所属文本类别的索引,x表示训练样本的特征向量,π表示高斯混合模型的混合系数,μ表示特征向量x的均值向量,∑表示协方差矩阵,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,N(x|μi,∑i)表示μi和∑i条件下训练样本x属于第i类文本的概率,p表示训练样本x的条件概率。
4.根据权利要求3所述的文本分类方法,其特征在于,步骤S3中,所述高斯混合模型的参数包括μi、∑i、πi,根据下式初始化求解所述高斯混合模型的参数:
其中,j表示训练样本的索引,l表示有类标训练样本的数量,n表示训练样本的数量,i表示训练样本所属文本类别的索引,x表示训练样本的特征向量,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。
5.根据权利要求2所述的文本分类方法,其特征在于,所述EM迭代方程中的E步按照下式计算得到无类标训练样本的预测值:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,m表示训练样本所属文本类别的总数量,xj表示第j个训练样本的特征向量,μj表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,N(xj|μi,∑i)表示μi和∑i条件下第j个训练样本属于第i类文本的概率,γij表示第j个训练样本属于第i类文本类别的概率值。
6.根据权利要求5所述的文本分类方法,其特征在于,所述EM迭代方程中的M步按照下式更新所述高斯混合模型的参数:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,n表示训练样本的数量,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。
7.根据权利要求1所述的文本分类方法,其特征在于,利用文本分类模型对待分类的文本进行分类包括:
对待分类的数据文本进行预处理,根据词向量库,将数据文本转化为词向量;
根据词向量获取数据文本相对应的特征向量,作为文本分类模型的输入;
将数据文本相对应的特征向量输入文本分类模型中;
通过所述文本分类模型输出待分类的数据文本属于各个文本类别的概率值,最大的概率值对应的文本类别即为待分类的数据文本所属的文本类别。
8.一种电子装置,其特征在于,该电子装置包括:处理器;存储器,所述存储器中包括文本分类程序,所述处理器执行所述文本分类程序,实现如下步骤:
对已有的数据集文本进行预处理,构建训练集,所述训练集包括有类标训练样本和无类标训练样本;
构建基于EM算法的高斯混合模型;
根据所述有类标训练样本初始化所述高斯混合模型的参数;
用EM算法训练所述高斯混合模型的参数,得到文本分类模型;
利用文本分类模型对待分类的文本进行分类。
9.根据权利要求8所述的电子装置,其特征在于,所述处理器用EM算法训练所述高斯混合模型的参数包括:
将经过初始化的高斯混合模型参数代入EM迭代方程;
通过所述EM迭代方程中的E步得到所述无类标训练样本的预测值及相应的预测类标,将预测类标引入训练集,更新所述训练集;
利用更新后的训练集,通过所述EM迭代方程中的M步更新所述高斯混合模型的参数,完成一次迭代;
判断高斯混合模型训练是否满足结束条件,若满足结束条件,则输出文本分类模型,若不满足结束条件,则继续训练高斯混合模型的参数,其中,所述结束条件包括第一结束条件和/或第二结束条件,所述第一结束条件为迭代次数大于设定的最大迭代次数,第二结束条件为相邻两次迭代通过E步得到的预测值的差值小于设定目标值。
10.根据权利要求9所述的电子装置,其特征在于,所述EM迭代方程中的E步按照下式计算得到无类标训练样本的预测值:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,m表示训练样本所属文本类别的总数量,xj表示第j个训练样本的特征向量,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,N(xj|μi,∑i)表示μi和∑i条件下第j个训练样本属于第i类文本的概率,γij表示第j个训练样本属于第i类文本类别的概率值;
所述EM迭代方程中的M步按照下式更新所述高斯混合模型的参数:
其中,i表示训练样本所属文本类别的索引,j表示训练样本的索引,n表示训练样本的数量,μi表示第i类训练样本特征向量的均值向量,∑i表示第i类训练样本特征向量的协方差矩阵,πi表示高斯混合模型第i类训练样本的混合系数,xj表示第j个训练样本的特征向量,γij表示第j个训练样本属于第i类文本类别的概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811159037.3A CN109492093A (zh) | 2018-09-30 | 2018-09-30 | 基于高斯混合模型和em算法的文本分类方法及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811159037.3A CN109492093A (zh) | 2018-09-30 | 2018-09-30 | 基于高斯混合模型和em算法的文本分类方法及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492093A true CN109492093A (zh) | 2019-03-19 |
Family
ID=65690068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811159037.3A Withdrawn CN109492093A (zh) | 2018-09-30 | 2018-09-30 | 基于高斯混合模型和em算法的文本分类方法及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492093A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363359A (zh) * | 2019-07-23 | 2019-10-22 | 中国联合网络通信集团有限公司 | 一种职业预测方法和*** |
CN110400610A (zh) * | 2019-06-19 | 2019-11-01 | 西安电子科技大学 | 基于多通道随机森林的小样本临床数据分类方法及*** |
CN110457467A (zh) * | 2019-07-02 | 2019-11-15 | 厦门美域中央信息科技有限公司 | 一种基于高斯混合模型的信息技术文本分类方法 |
CN110705592A (zh) * | 2019-09-03 | 2020-01-17 | 平安科技(深圳)有限公司 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
CN111475648A (zh) * | 2020-03-30 | 2020-07-31 | 东软集团股份有限公司 | 一种文本分类模型生成方法、文本分类方法及装置、设备 |
CN112100377A (zh) * | 2020-09-14 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN112115268A (zh) * | 2020-09-28 | 2020-12-22 | 支付宝(杭州)信息技术有限公司 | 基于特征编码器的训练方法及装置、分类方法及装置 |
-
2018
- 2018-09-30 CN CN201811159037.3A patent/CN109492093A/zh not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400610A (zh) * | 2019-06-19 | 2019-11-01 | 西安电子科技大学 | 基于多通道随机森林的小样本临床数据分类方法及*** |
CN110400610B (zh) * | 2019-06-19 | 2022-04-15 | 西安电子科技大学 | 基于多通道随机森林的小样本临床数据分类方法及*** |
CN110457467A (zh) * | 2019-07-02 | 2019-11-15 | 厦门美域中央信息科技有限公司 | 一种基于高斯混合模型的信息技术文本分类方法 |
CN110363359A (zh) * | 2019-07-23 | 2019-10-22 | 中国联合网络通信集团有限公司 | 一种职业预测方法和*** |
WO2021042556A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
CN110705592A (zh) * | 2019-09-03 | 2020-01-17 | 平安科技(深圳)有限公司 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
CN110705592B (zh) * | 2019-09-03 | 2024-05-14 | 平安科技(深圳)有限公司 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
CN111475648B (zh) * | 2020-03-30 | 2023-11-14 | 东软集团股份有限公司 | 一种文本分类模型生成方法、文本分类方法及装置、设备 |
CN111475648A (zh) * | 2020-03-30 | 2020-07-31 | 东软集团股份有限公司 | 一种文本分类模型生成方法、文本分类方法及装置、设备 |
CN112100377A (zh) * | 2020-09-14 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN112100377B (zh) * | 2020-09-14 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN112115268A (zh) * | 2020-09-28 | 2020-12-22 | 支付宝(杭州)信息技术有限公司 | 基于特征编码器的训练方法及装置、分类方法及装置 |
CN112115268B (zh) * | 2020-09-28 | 2024-04-09 | 支付宝(杭州)信息技术有限公司 | 基于特征编码器的训练方法及装置、分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492093A (zh) | 基于高斯混合模型和em算法的文本分类方法及电子装置 | |
Nasiri et al. | A whale optimization algorithm (WOA) approach for clustering | |
Fong et al. | Accelerated PSO swarm search feature selection for data stream mining big data | |
CN109522942A (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
CN109471938A (zh) | 一种文本分类方法及终端 | |
CN112632385A (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN111950596A (zh) | 一种用于神经网络的训练方法以及相关设备 | |
CN111475613A (zh) | 案件分类方法、装置、计算机设备及存储介质 | |
CN106874292A (zh) | 话题处理方法及装置 | |
CN110362723A (zh) | 一种题目特征表示方法、装置及存储介质 | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN110222171A (zh) | 一种分类模型应用、分类模型训练方法及装置 | |
CN107545276A (zh) | 联合低秩表示和稀疏回归的多视角学习方法 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN110457677A (zh) | 实体关系识别方法及装置、存储介质、计算机设备 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN110276382A (zh) | 基于谱聚类的人群分类方法、装置及介质 | |
CN113468338A (zh) | 针对数字化云业务的大数据分析方法及大数据服务器 | |
CN105164672A (zh) | 内容分类 | |
CN116612307A (zh) | 一种基于迁移学习的茄科病害等级识别方法 | |
CN114781611A (zh) | 自然语言处理方法、语言模型训练方法及其相关设备 | |
Zhu et al. | Learning reconfigurable scene representation by tangram model | |
CN110795736B (zh) | 一种基于svm决策树的恶意安卓软件检测方法 | |
Goyal et al. | Leaf Bagging: A novel meta heuristic optimization based framework for leaf identification | |
Llerena et al. | On using sum-product networks for multi-label classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190319 |