CN109522408A

CN109522408A - 信息流素材创意文本的分类方法

Info

Publication number: CN109522408A
Application number: CN201811278261.4A
Authority: CN
Inventors: 林正春; 姜允志; 贾西平
Original assignee: Guangdong Original Mdt Infotech Ltd
Current assignee: Guangdong Original Mdt Infotech Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-03-26

Abstract

本发明公开了一种信息流素材创意文本的分类方法，包括基于关联分析提取频繁特征词集合及其关联的训练文本和利用关联分析结果，确定待分类文本的初始近邻并确定最终的近邻数k，再基于近邻类别进行文本分类，本发明在执行分类时大大降低了时间复杂度，且能够较好提高分类的准确性，对近邻数量k的确定有较好的改进，同时能大大减少分类的时间复杂度。

Description

信息流素材创意文本的分类方法

技术领域

本发明涉及文本分类领域，具体涉及一种信息流素材创意文本的分类方法。

背景技术

随着网络信息技术的飞速发展，Internet的信息资源呈现指数级的增长趋势，而文本作为最基本的信息载体，其分类技术已经成为现代信息处理的一大热点。目前比较常用的文本分类算法有：朴素贝叶斯、支持向量机、神经网络、决策数、K－最近邻(K－NearestNeighbor)等方法。其中，基于经典KNN的文本分类方法简单有效，是分类效果最好的方法之一，但也有一些明显的缺点：第一，确定待分类文本的类别时，需要计算其与训练样本集合中全部样本的相似度，之后从中选出与其相似度最高的前k个样本，一般情况，文本分类时的训练样本常常规模很大，由于在成千上万训练样本上计算与待分类文本的相似度，随着训练样本数目的增加，分类性能就会很快下降；第二，它是一种懒惰的文本分类学习方法，在对测试样本分类时计算量大，消耗的时间较多，随着训练样本规模的增加，分类耗时急剧上升，造成分类时间是非线性的；第三，KNN算法必须指定k值，而如何确定待分类文本的近邻数目，尚缺乏较好且广泛适应的方法，k的选取对类别判定起到很重要的作用，k取得过大或过小都会降低文本分类的准确性。

发明内容

本发明的目的是为解决上述不足，提供一种信息流素材创意文本的分类方法。

本发明的目的是通过以下技术方案实现的：

一种信息流素材创意文本的分类方法，方法如下：

一、基于关联分析提取频繁特征词集合及其关联的训练文本：

Step1.1：设文本类别总数为m，类别为c₁,c₂,…,c_m，每个类别的训练样本数记为N₁,N₂,…,N_m；对训练集中的文本进行预处理，利用χ²统计方法，对训练集中各类别文本分别选取一定数量，记为N_f的特征词；

Step1.2：扫描所有训练文本，将每个文本表示为由所有类别的特征词构成的m·N_f维文本向量，利用TF-IDF和基于χ²统计方法的特征评价函数计算特征权重，将权重设为:TF-IDF^*基于χ²的特征评价值；

Step1.3：提取每个类别的频繁特征集及其关联的文本；本步仅考虑每个训练文本所属类别的特征，其余的暂且忽略；对每个类别分别处理，包括如下步骤：

Step1.3.1:将该类别的每个文本看作是单个事务(transaction)，将其包含的该类别的特征看作是事务的数据项，项集也就是该类别的特征词集合，设置最小支持度，利用Apriori算法得到文中该类别满足最小支持度阈值的所有项集，即产生所有文中该类别的频繁项集；

Step1.3.2：对每一个频繁项集保存其关联的训练文本，包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本；

二、利用关联分析结果，确定待分类文本的初始近邻并确定最终的近邻数k，再基于近邻类别进行文本分类：

Step2.1：对于待分类文本，先进行预处理，再利用已提取出的各类别的特征词表示该文本，得到m·N_f维文本向量，再利用TF-IDF和基于χ²统计方法的特征评价函数计算特征权重，将权重设为：

TF-IDF^*基于χ²的特征评价值；

Step2.2：对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列，选取排列在前3的类别，记为c_x,c_y,c_z及特征；

Step2.3：根据Step2.2获取的待分类文本的文本向量中属于前3个类别的特征词，分别在其对应的类别中查找最大频繁项集，并获取相关联的训练文本，这些训练文本都作为待分类文本的初始近邻；设相关联的训练文本集合分别为I_x,I_y,I_z，文本数目分别为n_x,n_y,n_z，设定k＝min(2.5*n_x,n_x+n_y+n_z)；

Step2.4：计算待分类文本与每个初始近邻文本的余弦相似度；

Step2.5：将相似度降序排列，选取前k个训练文本，统计属于3个类别的文档数目，分类别累加相似度，进而得到待分类文本与每个类别近邻文本相似度的平均值，平均值最大的类别判定为待分类文本的类别。

一种信息流素材创意文本的分类***，包括

提取模块：基于关联分析提取频繁特征词集合及其关联的训练文本：以及

分类模块：利用关联分析结果，确定待分类文本的初始近邻并确定最终的近邻数k，再基于近邻类别进行文本分类：

提取模块包括：

设文本类别总数为m，类别为c₁,c₂,…,c_m，每个类别的训练样本数记为N₁,N₂,…,N_m；对训练集中的文本进行预处理，利用χ²统计方法，对训练集中各类别文本分别选取一定数量，记为N_f的特征词；

扫描所有训练文本，将每个文本表示为由所有类别的特征词构成的m·N_f维文本向量，利用TF-IDF和基于χ²统计方法的特征评价函数计算特征权重，将权重设为:TF-IDF^*基于χ²的特征评价值；

提取每个类别的频繁特征集及其关联的文本，其中仅考虑每个训练文本所属类别的特征，其余的忽略。

在提取每个类别的频繁特征集及其关联的文本中：对每个类别分别处理，包括：

将该类别的每个文本看作是单个事务(transaction)，将其包含的该类别的特征看作是事务的数据项，项集也就是该类别的特征词集合，设置最小支持度，利用Apriori算法得到文中该类别满足最小支持度阈值的所有项集，即产生所有文中该类别的频繁项集；

对每一个频繁项集保存其关联的训练文本，包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本。

分类模块包括：

对于待分类文本，先进行预处理，再利用已提取出的各类别的特征词表示该文本，得到m·N_f维文本向量，再利用TF-IDF和基于χ²统计方法的特征评价函数计算特征权重，将权重设为：TF-IDF^*基于χ²的特征评价值；

对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列，选取排列在前3的类别，记为c_x,c_y,c_z及特征；

根据获取的待分类文本的文本向量中属于前3个类别的特征词，分别在其对应的类别中查找最大频繁项集，并获取相关联的训练文本，这些训练文本都作为待分类文本的初始近邻；设相关联的训练文本集合分别为I_x,I_y,I_z，文本数目分别为n_x,n_y,n_z，设定k＝min(2.5*n_x,n_x+n_y+n_z)；

计算待分类文本与每个初始近邻文本的余弦相似度；

将相似度降序排列，选取前k个训练文本，统计属于3个类别的文档数目，分类别累加相似度，进而得到待分类文本与每个类别近邻文本相似度的平均值，平均值最大的类别判定为待分类文本的类别。

一种计算机设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现所述的方法。

一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现所述的方法。

本发明具有如下有益的效果：

本发明在执行分类时大大降低了时间复杂度，且能够较好提高分类的准确性，对近邻数量k的确定有较好的改进，同时能大大减少分类的时间复杂度。

具体实施方式

下面对本发明作进一步的说明：

一种信息流素材创意文本的分类方法，方法如下：

TF-IDF^*基于χ²的特征评价值；

Step2.4：计算待分类文本与每个初始近邻文本的余弦相似度；

一种信息流素材创意文本的分类***，包括

提取模块包括：

分类模块包括：

计算待分类文本与每个初始近邻文本的余弦相似度；

一种计算机设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

Claims

1.一种信息流素材创意文本的分类方法，其特征在于，包括

步骤1、基于关联分析提取频繁特征词集合及其关联的训练文本：以及

步骤2、利用关联分析结果，确定待分类文本的初始近邻并确定最终的近邻数k，再基于近邻类别进行文本分类。

2.如权利要求1所述的方法，其特征在于，所述步骤1包括：

步骤1.1：设文本类别总数为m，类别为c₁,c₂,…,c_m，每个类别的训练样本数记为N₁,N₂,…,N_m；对训练集中的文本进行预处理，利用χ²统计方法，对训练集中各类别文本分别选取一定数量，记为N_f的特征词；

步骤1.2：扫描所有训练文本，将每个文本表示为由所有类别的特征词构成的m·N_f维文本向量，利用TF-IDF和基于χ²统计方法的特征评价函数计算特征权重，将权重设为:TF-IDF^*基于χ²的特征评价值；

步骤1.3：提取每个类别的频繁特征集及其关联的文本；本步仅考虑每个训练文本所属类别的特征，其余的忽略。

3.如权利要求2所述的方法，其特征在于，所述步骤1.3中：对每个类别分别处理，包括：

步骤1.3.1:将该类别的每个文本看作是单个事务(transaction)，将其包含的该类别的特征看作是事务的数据项，项集也就是该类别的特征词集合，设置最小支持度，利用Apriori算法得到文中该类别满足最小支持度阈值的所有项集，即产生所有文中该类别的频繁项集；

步骤1.3.2：对每一个频繁项集保存其关联的训练文本，包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本。

4.如权利要求1所述的方法，其特征在于，所述步骤2包括：

Step2.1：对于待分类文本，先进行预处理，再利用已提取出的各类别的特征词表示该文本，得到m·N_f维文本向量，再利用TF-IDF和基于χ²统计方法的特征评价函数计算特征权重，将权重设为：TF-IDF^*基于χ²的特征评价值；

Step2.4：计算待分类文本与每个初始近邻文本的余弦相似度；

5.一种信息流素材创意文本的分类***，其特征在于，包括

分类模块：利用关联分析结果，确定待分类文本的初始近邻并确定最终的近邻数k，再基于近邻类别进行文本分类。

6.如权利要求5所述的***，其特征在于，提取模块包括：

7.如权利要求6所述的***，其特征在于，在提取每个类别的频繁特征集及其关联的文本中：对每个类别分别处理，包括：

8.如权利要求1所述的***，其特征在于，分类模块包括：

计算待分类文本与每个初始近邻文本的余弦相似度；

9.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一项所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。