CN109522408A - 信息流素材创意文本的分类方法 - Google Patents

信息流素材创意文本的分类方法 Download PDF

Info

Publication number
CN109522408A
CN109522408A CN201811278261.4A CN201811278261A CN109522408A CN 109522408 A CN109522408 A CN 109522408A CN 201811278261 A CN201811278261 A CN 201811278261A CN 109522408 A CN109522408 A CN 109522408A
Authority
CN
China
Prior art keywords
text
classification
training
feature
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811278261.4A
Other languages
English (en)
Inventor
林正春
姜允志
贾西平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Original Mdt Infotech Ltd
Original Assignee
Guangdong Original Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Original Mdt Infotech Ltd filed Critical Guangdong Original Mdt Infotech Ltd
Priority to CN201811278261.4A priority Critical patent/CN109522408A/zh
Publication of CN109522408A publication Critical patent/CN109522408A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息流素材创意文本的分类方法,包括基于关联分析提取频繁特征词集合及其关联的训练文本和利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数k,再基于近邻类别进行文本分类,本发明在执行分类时大大降低了时间复杂度,且能够较好提高分类的准确性,对近邻数量k的确定有较好的改进,同时能大大减少分类的时间复杂度。

Description

信息流素材创意文本的分类方法
技术领域
本发明涉及文本分类领域,具体涉及一种信息流素材创意文本的分类方法。
背景技术
随着网络信息技术的飞速发展,Internet的信息资源呈现指数级的增长趋势,而文本作为最基本的信息载体,其分类技术已经成为现代信息处理的一大热点。目前比较常用的文本分类算法有:朴素贝叶斯、支持向量机、神经网络、决策数、K-最近邻(K-NearestNeighbor)等方法。其中,基于经典KNN的文本分类方法简单有效,是分类效果最好的方法之一,但也有一些明显的缺点:第一,确定待分类文本的类别时,需要计算其与训练样本集合中全部样本的相似度,之后从中选出与其相似度最高的前k个样本,一般情况,文本分类时的训练样本常常规模很大,由于在成千上万训练样本上计算与待分类文本的相似度,随着训练样本数目的增加,分类性能就会很快下降;第二,它是一种懒惰的文本分类学习方法,在对测试样本分类时计算量大,消耗的时间较多,随着训练样本规模的增加,分类耗时急剧上升,造成分类时间是非线性的;第三,KNN算法必须指定k值,而如何确定待分类文本的近邻数目,尚缺乏较好且广泛适应的方法,k的选取对类别判定起到很重要的作用,k取得过大或过小都会降低文本分类的准确性。
发明内容
本发明的目的是为解决上述不足,提供一种信息流素材创意文本的分类方法。
本发明的目的是通过以下技术方案实现的:
一种信息流素材创意文本的分类方法,方法如下:
一、基于关联分析提取频繁特征词集合及其关联的训练文本:
Step1.1:设文本类别总数为m,类别为c1,c2,…,cm,每个类别的训练样本数记为N1,N2,…,Nm;对训练集中的文本进行预处理,利用χ2统计方法,对训练集中各类别文本分别选取一定数量,记为Nf的特征词;
Step1.2:扫描所有训练文本,将每个文本表示为由所有类别的特征词构成的m·Nf维文本向量,利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
Step1.3:提取每个类别的频繁特征集及其关联的文本;本步仅考虑每个训练文本所属类别的特征,其余的暂且忽略;对每个类别分别处理,包括如下步骤:
Step1.3.1:将该类别的每个文本看作是单个事务(transaction),将其包含的该类别的特征看作是事务的数据项,项集也就是该类别的特征词集合,设置最小支持度,利用Apriori算法得到文中该类别满足最小支持度阈值的所有项集,即产生所有文中该类别的频繁项集;
Step1.3.2:对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本;
二、利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数k,再基于近邻类别进行文本分类:
Step2.1:对于待分类文本,先进行预处理,再利用已提取出的各类别的特征词表示该文本,得到m·Nf维文本向量,再利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:
TF-IDF*基于χ2的特征评价值;
Step2.2:对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列,选取排列在前3的类别,记为cx,cy,cz及特征;
Step2.3:根据Step2.2获取的待分类文本的文本向量中属于前3个类别的特征词,分别在其对应的类别中查找最大频繁项集,并获取相关联的训练文本,这些训练文本都作为待分类文本的初始近邻;设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz,设定k=min(2.5*nx,nx+ny+nz);
Step2.4:计算待分类文本与每个初始近邻文本的余弦相似度;
Step2.5:将相似度降序排列,选取前k个训练文本,统计属于3个类别的文档数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值最大的类别判定为待分类文本的类别。
一种信息流素材创意文本的分类***,包括
提取模块:基于关联分析提取频繁特征词集合及其关联的训练文本:以及
分类模块:利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数k,再基于近邻类别进行文本分类:
提取模块包括:
设文本类别总数为m,类别为c1,c2,…,cm,每个类别的训练样本数记为N1,N2,…,Nm;对训练集中的文本进行预处理,利用χ2统计方法,对训练集中各类别文本分别选取一定数量,记为Nf的特征词;
扫描所有训练文本,将每个文本表示为由所有类别的特征词构成的m·Nf维文本向量,利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
提取每个类别的频繁特征集及其关联的文本,其中仅考虑每个训练文本所属类别的特征,其余的忽略。
在提取每个类别的频繁特征集及其关联的文本中:对每个类别分别处理,包括:
将该类别的每个文本看作是单个事务(transaction),将其包含的该类别的特征看作是事务的数据项,项集也就是该类别的特征词集合,设置最小支持度,利用Apriori算法得到文中该类别满足最小支持度阈值的所有项集,即产生所有文中该类别的频繁项集;
对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本。
分类模块包括:
对于待分类文本,先进行预处理,再利用已提取出的各类别的特征词表示该文本,得到m·Nf维文本向量,再利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列,选取排列在前3的类别,记为cx,cy,cz及特征;
根据获取的待分类文本的文本向量中属于前3个类别的特征词,分别在其对应的类别中查找最大频繁项集,并获取相关联的训练文本,这些训练文本都作为待分类文本的初始近邻;设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz,设定k=min(2.5*nx,nx+ny+nz);
计算待分类文本与每个初始近邻文本的余弦相似度;
将相似度降序排列,选取前k个训练文本,统计属于3个类别的文档数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值最大的类别判定为待分类文本的类别。
一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述的方法。
一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现所述的方法。
本发明具有如下有益的效果:
本发明在执行分类时大大降低了时间复杂度,且能够较好提高分类的准确性,对近邻数量k的确定有较好的改进,同时能大大减少分类的时间复杂度。
具体实施方式
下面对本发明作进一步的说明:
一种信息流素材创意文本的分类方法,方法如下:
一、基于关联分析提取频繁特征词集合及其关联的训练文本:
Step1.1:设文本类别总数为m,类别为c1,c2,…,cm,每个类别的训练样本数记为N1,N2,…,Nm;对训练集中的文本进行预处理,利用χ2统计方法,对训练集中各类别文本分别选取一定数量,记为Nf的特征词;
Step1.2:扫描所有训练文本,将每个文本表示为由所有类别的特征词构成的m·Nf维文本向量,利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
Step1.3:提取每个类别的频繁特征集及其关联的文本;本步仅考虑每个训练文本所属类别的特征,其余的暂且忽略;对每个类别分别处理,包括如下步骤:
Step1.3.1:将该类别的每个文本看作是单个事务(transaction),将其包含的该类别的特征看作是事务的数据项,项集也就是该类别的特征词集合,设置最小支持度,利用Apriori算法得到文中该类别满足最小支持度阈值的所有项集,即产生所有文中该类别的频繁项集;
Step1.3.2:对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本;
二、利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数k,再基于近邻类别进行文本分类:
Step2.1:对于待分类文本,先进行预处理,再利用已提取出的各类别的特征词表示该文本,得到m·Nf维文本向量,再利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:
TF-IDF*基于χ2的特征评价值;
Step2.2:对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列,选取排列在前3的类别,记为cx,cy,cz及特征;
Step2.3:根据Step2.2获取的待分类文本的文本向量中属于前3个类别的特征词,分别在其对应的类别中查找最大频繁项集,并获取相关联的训练文本,这些训练文本都作为待分类文本的初始近邻;设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz,设定k=min(2.5*nx,nx+ny+nz);
Step2.4:计算待分类文本与每个初始近邻文本的余弦相似度;
Step2.5:将相似度降序排列,选取前k个训练文本,统计属于3个类别的文档数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值最大的类别判定为待分类文本的类别。
一种信息流素材创意文本的分类***,包括
提取模块:基于关联分析提取频繁特征词集合及其关联的训练文本:以及
分类模块:利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数k,再基于近邻类别进行文本分类:
提取模块包括:
设文本类别总数为m,类别为c1,c2,…,cm,每个类别的训练样本数记为N1,N2,…,Nm;对训练集中的文本进行预处理,利用χ2统计方法,对训练集中各类别文本分别选取一定数量,记为Nf的特征词;
扫描所有训练文本,将每个文本表示为由所有类别的特征词构成的m·Nf维文本向量,利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
提取每个类别的频繁特征集及其关联的文本,其中仅考虑每个训练文本所属类别的特征,其余的忽略。
在提取每个类别的频繁特征集及其关联的文本中:对每个类别分别处理,包括:
将该类别的每个文本看作是单个事务(transaction),将其包含的该类别的特征看作是事务的数据项,项集也就是该类别的特征词集合,设置最小支持度,利用Apriori算法得到文中该类别满足最小支持度阈值的所有项集,即产生所有文中该类别的频繁项集;
对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本。
分类模块包括:
对于待分类文本,先进行预处理,再利用已提取出的各类别的特征词表示该文本,得到m·Nf维文本向量,再利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列,选取排列在前3的类别,记为cx,cy,cz及特征;
根据获取的待分类文本的文本向量中属于前3个类别的特征词,分别在其对应的类别中查找最大频繁项集,并获取相关联的训练文本,这些训练文本都作为待分类文本的初始近邻;设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz,设定k=min(2.5*nx,nx+ny+nz);
计算待分类文本与每个初始近邻文本的余弦相似度;
将相似度降序排列,选取前k个训练文本,统计属于3个类别的文档数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值最大的类别判定为待分类文本的类别。
一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述的方法。
一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现所述的方法。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

Claims (10)

1.一种信息流素材创意文本的分类方法,其特征在于,包括
步骤1、基于关联分析提取频繁特征词集合及其关联的训练文本:以及
步骤2、利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数k,再基于近邻类别进行文本分类。
2.如权利要求1所述的方法,其特征在于,所述步骤1包括:
步骤1.1:设文本类别总数为m,类别为c1,c2,…,cm,每个类别的训练样本数记为N1,N2,…,Nm;对训练集中的文本进行预处理,利用χ2统计方法,对训练集中各类别文本分别选取一定数量,记为Nf的特征词;
步骤1.2:扫描所有训练文本,将每个文本表示为由所有类别的特征词构成的m·Nf维文本向量,利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
步骤1.3:提取每个类别的频繁特征集及其关联的文本;本步仅考虑每个训练文本所属类别的特征,其余的忽略。
3.如权利要求2所述的方法,其特征在于,所述步骤1.3中:对每个类别分别处理,包括:
步骤1.3.1:将该类别的每个文本看作是单个事务(transaction),将其包含的该类别的特征看作是事务的数据项,项集也就是该类别的特征词集合,设置最小支持度,利用Apriori算法得到文中该类别满足最小支持度阈值的所有项集,即产生所有文中该类别的频繁项集;
步骤1.3.2:对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本。
4.如权利要求1所述的方法,其特征在于,所述步骤2包括:
Step2.1:对于待分类文本,先进行预处理,再利用已提取出的各类别的特征词表示该文本,得到m·Nf维文本向量,再利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
Step2.2:对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列,选取排列在前3的类别,记为cx,cy,cz及特征;
Step2.3:根据Step2.2获取的待分类文本的文本向量中属于前3个类别的特征词,分别在其对应的类别中查找最大频繁项集,并获取相关联的训练文本,这些训练文本都作为待分类文本的初始近邻;设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz,设定k=min(2.5*nx,nx+ny+nz);
Step2.4:计算待分类文本与每个初始近邻文本的余弦相似度;
Step2.5:将相似度降序排列,选取前k个训练文本,统计属于3个类别的文档数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值最大的类别判定为待分类文本的类别。
5.一种信息流素材创意文本的分类***,其特征在于,包括
提取模块:基于关联分析提取频繁特征词集合及其关联的训练文本:以及
分类模块:利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数k,再基于近邻类别进行文本分类。
6.如权利要求5所述的***,其特征在于,提取模块包括:
设文本类别总数为m,类别为c1,c2,…,cm,每个类别的训练样本数记为N1,N2,…,Nm;对训练集中的文本进行预处理,利用χ2统计方法,对训练集中各类别文本分别选取一定数量,记为Nf的特征词;
扫描所有训练文本,将每个文本表示为由所有类别的特征词构成的m·Nf维文本向量,利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
提取每个类别的频繁特征集及其关联的文本,其中仅考虑每个训练文本所属类别的特征,其余的忽略。
7.如权利要求6所述的***,其特征在于,在提取每个类别的频繁特征集及其关联的文本中:对每个类别分别处理,包括:
将该类别的每个文本看作是单个事务(transaction),将其包含的该类别的特征看作是事务的数据项,项集也就是该类别的特征词集合,设置最小支持度,利用Apriori算法得到文中该类别满足最小支持度阈值的所有项集,即产生所有文中该类别的频繁项集;
对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本。
8.如权利要求1所述的***,其特征在于,分类模块包括:
对于待分类文本,先进行预处理,再利用已提取出的各类别的特征词表示该文本,得到m·Nf维文本向量,再利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*基于χ2的特征评价值;
对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列,选取排列在前3的类别,记为cx,cy,cz及特征;
根据获取的待分类文本的文本向量中属于前3个类别的特征词,分别在其对应的类别中查找最大频繁项集,并获取相关联的训练文本,这些训练文本都作为待分类文本的初始近邻;设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz,设定k=min(2.5*nx,nx+ny+nz);
计算待分类文本与每个初始近邻文本的余弦相似度;
将相似度降序排列,选取前k个训练文本,统计属于3个类别的文档数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值最大的类别判定为待分类文本的类别。
9.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN201811278261.4A 2018-10-30 2018-10-30 信息流素材创意文本的分类方法 Pending CN109522408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811278261.4A CN109522408A (zh) 2018-10-30 2018-10-30 信息流素材创意文本的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811278261.4A CN109522408A (zh) 2018-10-30 2018-10-30 信息流素材创意文本的分类方法

Publications (1)

Publication Number Publication Date
CN109522408A true CN109522408A (zh) 2019-03-26

Family

ID=65773265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811278261.4A Pending CN109522408A (zh) 2018-10-30 2018-10-30 信息流素材创意文本的分类方法

Country Status (1)

Country Link
CN (1) CN109522408A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378950A (zh) * 2021-06-22 2021-09-10 深圳市查策网络信息技术有限公司 一种长文本的无监督分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范恒亮等: "一种基于关联分析的KNN文本分类方法", 《计算机技术与发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378950A (zh) * 2021-06-22 2021-09-10 深圳市查策网络信息技术有限公司 一种长文本的无监督分类方法

Similar Documents

Publication Publication Date Title
CN103299324B (zh) 使用潜在子标记来学习用于视频注释的标记
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
US7978882B1 (en) Scoring items
CN108829893A (zh) 确定视频标签的方法、装置、存储介质和终端设备
US20140201180A1 (en) Intelligent Supplemental Search Engine Optimization
CN106886569B (zh) 一种基于mpi的ml-knn多标签中文文本分类方法
CN102346829A (zh) 基于集成分类的病毒检测方法
CN109101817A (zh) 一种识别恶意文件类别的方法及计算设备
CN108875049A (zh) 文本聚类方法及装置
CN106156163B (zh) 文本分类方法以及装置
CN110019794A (zh) 文本资源的分类方法、装置、存储介质及电子装置
CN111062036A (zh) 恶意软件识别模型构建、识别方法及介质和设备
CN104462301A (zh) 一种网络数据的处理方法和装置
CN109063478A (zh) 可移植的可执行文件的病毒检测方法、装置、设备及介质
CN109840413A (zh) 一种钓鱼网站检测方法及装置
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
KR20010113779A (ko) 유전자 알고리즘들을 사용한 멀티 특징 조합 생성 및 분류유효성 평가
US20230409645A1 (en) Search needs evaluation apparatus, search needs evaluation system, and search needs evaluation method
Lyu et al. Adaptive fine-grained predicates learning for scene graph generation
Aljabri et al. Fake news detection using machine learning models
Qiu et al. Improving news video annotation with semantic context
KR101158750B1 (ko) 문서분류장치 및 그것의 문서분류방법
CN109522408A (zh) 信息流素材创意文本的分类方法
CN108717511A (zh) 一种Android应用威胁度评估模型建立方法、评估方法及***
KR20130045054A (ko) 키워드 추출 및 정련 시스템과 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190326