CN111694948B

CN111694948B - 文本的分类方法及***、电子设备、存储介质

Info

Publication number: CN111694948B
Application number: CN201910185723.6A
Authority: CN
Inventors: 夏锦春; 华夏; 赵明明
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2024-05-17
Anticipated expiration: 2039-03-12
Also published as: CN111694948A

Abstract

本发明公开了一种文本的分类方法及***、电子设备、存储介质。分类方法包括：设置网络新词库；网络新词库存储有网络新词；根据网络新词库和常用词库对待分类文本进行分词处理，获得特征词；常用词库存储有常用词；采用第一计算公式计算属于常用词的特征词的第一特征权重；采用第二计算公式计算属于网络新词的特征词的第二特征权重；将第一特征权重和第二特征权重构成待分类文本的特征向量，并根据特征向量对待分类文本进行分类。本发明把网络新词发现的结果加入文本预处理过程，在降低特征空间的维度的同时，有效提高分类器性能，优化分类结果，可被广泛用于用户检索，对信息频繁更新电商领域、搜索引擎都有积极作用。

Description

文本的分类方法及***、电子设备、存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种文本的分类方法及***、电子设备、存储介质。

背景技术

随着互联网的发展，网络成为用户获取信息的主要渠道，而信息的***式增长使得用户难以从海量数据中获得需要的信息。这在搜索引擎和电子商务搜索中体现的越发明显。为提升用户体验，对待分类文本进行有效分类变得越来越重要。通过分类算法对未知类别的文档进行处理，可以判定它所属的预定义类别，而分类算法主要建立在向量空间模型的基础上，特征词权重算法的优劣将直接影响文本分类的精准度。

特征权重算法用以衡量词条在文本中的重要性，TF-IDF算法是最为经典的特征词权重算法，传统的TF-IDF算法主要考虑特征词的TF和IDF两个方面的信息，改进后的TF-IDF算法也均从算法本身进行分析和修改，没有结合时代背景对处理对象进行分析，忽略了文本表达方式变化带来的影响，也就不能实现对待分类文本的有效分类。

发明内容

本发明实施例要解决的技术问题是为了克服现有技术中的分类方法，没有结合文本表达方式进行分析，不能实现对待分类文本的有效分类的缺陷，提供一种文本的分类方法及***、电子设备、存储介质。

本发明实施例是通过下述技术方案来解决上述技术问题：

一种文本的分类方法，所述分类方法包括：

设置网络新词库；所述网络新词库存储有网络新词；

根据所述网络新词库和常用词库对待分类文本进行分词处理，获得特征词；所述常用词库存储有常用词；

采用第一计算公式计算属于所述常用词的特征词的第一特征权重；采用第二计算公式计算属于所述网络新词的特征词的第二特征权重；

其中，对于同一特征词，所述第一计算公式的计算结果小于所述第二计算公式的计算结果；

将所述第一特征权重和所述第二特征权重构成所述待分类文本的特征向量，并根据所述特征向量对所述待分类文本进行分类。

较佳地，根据所述网络新词库和所述常用词库对所述待分类文本进行分词处理的步骤之后，还包括：

将分词后的所述待分类文本转换为词频矩阵；

对所述词频矩阵进行特征提取，得到所述特征词。

较佳地，根据所述特征向量对所述待分类文本进行分类的步骤，具体包括：

计算所述待分类文本与已分类文本的相似度，并按照所述相似度由高至低的顺序对所述已分类文本进行排序；

从所述已分类文本中获取排序靠前的若干目标文本；

根据所述相似度计算所述待分类文本所属于所述若干目标文本所在分类类别的文本权重；

将所述待分类文本分配至所述文本权重最大的所述分类类别。

去除分词处理后的所述待分类文本中的停用词。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的文本的分类方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的文本的分类方法的步骤。

一种文本的分类***，所述分类***包括：

网络新词库，用于存储网络新词；

常用词库，用于存储常用词；

分词模块，用于根据所述网络新词库和所述常用词库对待分类文本进行分词处理，获得特征词；

计算模块，用于采用第一计算公式计算属于所述常用词的特征词的第一特征权重；采用第二计算公式计算属于所述网络新词的特征词的第二特征权重；

分类模块，用于将所述第一特征权重和所述第二特征权重构成所述待分类文本的特征向量，并根据所述特征向量对所述待分类文本进行分类。

较佳地，所述分词模块具体包括：

转换单元，用于将分词处理后的所述待分类文本转换为词频矩阵；

提取单元，用于对所述词频矩阵进行特征提取，得到所述特征词。

较佳地，所述分类模块具体包括：

计算单元，用于计算所述待分类文本与已分类文本的相似度，并按照所述相似度由高至低的顺序对所述已分类文本进行排序；

选取单元，用于从所述已分类文本中获取排序靠前的若干目标文本；

所述计算单元还用于根据所述相似度计算所述待分类文本所属于所述若干目标文本所在分类类别的文本权重；

分类单元，用于将所述待分类文本分配至所述文本权重最大的所述分类类别。

较佳地，所述分词模块还包括：

去除单元，用于去除分词处理后的所述待分类文本中的停用词。

本发明实施例的积极进步效果在于：本发明把网络新词发现的结果加入文本预处理过程，在降低特征空间的维度的同时，有效提高分类器性能，优化分类结果，可被广泛用于用户检索，对信息频繁更新电商领域、搜索引擎都有积极作用。

附图说明

图1为本发明实施例1的文本的分类方法的第一流程图。

图2为本发明实施例1的文本的分类方法的第二流程图。

图3为本发明实施例2的电子设备的结构示意图。

图4为本发明实施例4的文本的分类***的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种文本的分类方法，适用于各类文本的分类，特别适用于包括大量网络新词的网络信息文本。如图1所示，本实施例的文本的分类方法包括以下步骤：

步骤101、设置网络新词库和常用词库。

其中，网络新词库存储有网络新词；常用词库存储有常用词。网络新词也就是那些在分词词典中没有收录，但确实又能称为词的那些词，例如“二次元”、“工作CD”和“精芬”等。

步骤102、根据网络新词库和常用词库对待分类文本进行分词处理，获得特征词。

本实施例中，如图2所示，步骤102具体包括：

步骤102-1、根据网络新词库和常用词库对待分类文本进行分词处理。

其中，特征词的获取可借助中文分词工具，如NLPIR PARSER、ICTCLAS等，对“我是一个二次元爱好者”进行分词后的结果为：“我”、“是”、“一个”、“二次元”、“爱好者”。

本实施例中，步骤102-1之后还包括：去除分词后的待分类文本中的停用词的步骤。停用词的去除也可采用中文分词工具，实现文本中“的”，“了”，“吗”，“？”，“！”，“，”等词和标点的去除，以使特征词更能反映待分类文本的真实含义，且可减小算法的复杂度。

步骤102-2、将分词后的待分类文本转换为词频矩阵。

具体的，基于VSM模型将分词后的待分类文本转换为词频矩阵，也即把每篇文本d_i表示为特征词-特征向量，把文本d_i看作是一系列特征词t₁，t₂，…，t_p，…，t_n的集合t，对每个特征词赋予对应的权值。每篇文本d_i可表示为一个特征向量V(d_i)＝(t₁,w_i1；t₂,w_i2；…；t_p,w_ip；…；t_n,w_in)，对m篇文本进行词频矩阵转换的结果参见表1。

表1

其中，n表征特征词的总量；w_ip表征第p个特征词的权值；i∈[1,m]；p∈[1,n]。需要说明的是，若文本中不存在特征词t_p，则对应的权值为0。

步骤102-3、对词频矩阵进行特征提取，得到特征词。

步骤102-3也即使用特征提取方法提取重要特征来完成特征选择，重要特征的选择可以词频、词序作为参考依据，具体的，可借助特征提取器，把词频矩阵导入特征提取器，提取重要特征并构建特征词集合。

步骤103、采用第一计算公式计算属于常用词的特征词的第一特征权重；采用第二计算公式计算属于网络新词的特征词的第二特征权重。

步骤103中，对于文档d_i中的特征词t_p，首先判断它属于网络新词还是常用词(普通特征词)，若属于常用词则使用第一计算公式计算其特征权重，若属于网络新词则使用第二计算公式计算其特征权重。其中，对于同一特征词，第一计算公式的计算结果小于第二计算公式的计算结果。通过设置2个公式分别计算常用词和网络新词的特征权重，且使用第二计算公式计算网络新词的权重较大，提高了网络新词在文本中的权重，进而体现网络新词的重要性。

其中，第一计算公式可以但不限于采用如下公式：

第二计算公式可以但不限于采用如下公式：

其中，w_dt表征第一特征权重；w_dt′表征第二特征权重；tf_dt表征特征词t_p在文本d_i中出现的频率；N表征文本语料库中文本的总数；n_t表征文本语料库中包含特征词t_p的文本数；K为文本d_i中特征项的个数；len(t_p)表征特征词的字符数。

步骤104、将第一特征权重和第二特征权重构成待分类文本的特征向量，并根据特征向量对待分类文本进行分类。

本实施例中，步骤104具体包括：

步骤104-1、将第一特征权重和第二特征权重构成待分类文本的特征向量。

步骤104-2、根据特征向量计算待分类文本与已分类文本的相似度，并按照相似度由高至低的顺序对已分类文本进行排序。

其中，已分类文本按照分类类别存储于文本语料库中。

本实施例中，计算待分类文本d_i与已分类文本(训练集文本)d_j的相似度可以但不限于采用如下公式：

其中，Sim(d_i,d_j)表征待分类文本d_i与已分类文本d_j的相似度；w_ik表征待分类文本的特征词的权值的特征向量，w_jk表征已分类文本的特征词的权值的特征向量。

步骤104-3、从已分类文本中获取排序靠前的若干目标文本。

步骤104-3也即选取距离待分类文本d_i最近的K个目标文本。若K个目标文本属于同一分类类别，则将该待分类文本分配至该分类类别；若K个目标文本属于不同的分类类别，则执行步骤104-4。

步骤104-4、根据相似度计算待分类文本所属于若干目标文本所在分类类别的文本权重。

其中，计算文本权重可以但不限于采用如下公式：

其中，P(d_i,c_r)表征待分类文本d_i所属于分类类别集群c_r的文本权重，d_j′表征目标文本，KNN(d_i)表征目标文本集；f(d_j′,c_r)为类别判别函数，如果d_j′属于c_r类，则该项取1，否则取0。

步骤104-5、将待分类文本分配至文本权重最大的分类类别。

步骤104-5也即比较各类权重P(d_i,c_r)的大小，将待分类文本d_i分到文本权重最大的类别中。

从而，实现了文本的分类，分类后的文本则存储于文本语料库中，作为已分类文本。

本实施例中根据时代背景下文本表达方式的变化提出了一种新的基于网络新词改进的TF-IDF算法实现文本分类。该文本分类算法，在降低特征空间的维度的同时，有效提高分类器性能，优化分类结果，可被广泛用于用户检索，对信息频繁更新电商领域、搜索引擎都有积极作用。

实施例2

图3为本发明实施例提供的一种电子设备的结构示意图，示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图3显示的电子设备90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备90可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备90的组件可以包括但不限于：上述至少一个处理器91、上述至少一个存储器92、连接不同***组件(包括存储器92和处理器91)的总线93。

总线93包括数据总线、地址总线和控制总线。

存储器92可以包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925(或实用工具)，这样的程序模块924包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的文本的分类方法。

电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，模型生成的电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器96通过总线93与模型生成的电子设备90的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的电子设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例3

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1所提供的文本的分类方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1所提供的文本的分类方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

实施例4

如图4所示，本实施例的文本的分类***包括：网络新词库1、常用词库2、分词模块3、计算模块4和分类模块5。

网络新词库1用于存储网络新词。网络新词也就是那些在分词词典中没有收录，但确实又能称为词的那些词，例如“二次元”、“工作CD”和“精芬”等。

常用词库2用于存储常用词。

分词模块3用于根据网络新词库和常用词库对待分类文本进行分词处理，获得特征词。

具体的，分词模块3包括：分词单元31、转换单元32和提取单元33。

分词单元31用于根据网络新词库和常用词库对待分类文本进行分词处理。其中，分词单元31可通过中文分词工具实现，如NLPIR PARSER、ICTCLAS等，对“我是一个二次元爱好者”进行分词后的结果为：“我”、“是”、“一个”、“二次元”、“爱好者”。

转换单元32用于将分词处理后的待分类文本转换为词频矩阵。

具体的，转换单元32基于VSM模型将分词后的待分类文本转换为词频矩阵，也即把每篇文本d_i表示为特征词-特征向量，把文本d_i看作是一系列特征词t₁，t₂，…，t_p，…，t_n的集合t，对每个特征词赋予对应的权值。每篇文本d_i可表示为一个特征向量V(d_i)＝(t₁,w_i1；t₂,w_i2；…；t_p,w_ip；…；t_n,w_in)，对m篇文本进行词频矩阵转换的结果参见表1。

表1

提取单元33用于对词频矩阵进行特征提取，得到特征词。也即使用特征提取方法提取重要特征来完成特征选择，重要特征的选择可以词频、词序作为参考依据。具体的，提取单元33可通过特征提取器实现，把词频矩阵导入特征提取器，提取重要特征并构建特征词集合。

本实施例中，分词模块还可包括：去除单元34。去除单元34用于去除分词处理后的待分类文本中的停用词。去除单元34可通过中文分词工具实现，实现文本中“的”，“了”，“吗”，“？”，“！”，“，”等词和标点的去除，以使特征词更能反映待分类文本的真实含义，且可减小算法的复杂度。

计算模块4用于采用第一计算公式计算属于常用词的特征词的第一特征权重；采用第二计算公式计算属于网络新词的特征词的第二特征权重。

具体的，对于文档d_i中的特征词t_p，首先判断它属于网络新词还是常用词(普通特征词)，若属于常用词则使用第一计算公式计算其特征权重，若属于网络新词则使用第二计算公式计算其特征权重。其中，对于同一特征词，第一计算公式的计算结果小于第二计算公式的计算结果。通过设置2个公式分别计算常用词和网络新词的特征权重，且使用第二计算公式计算网络新词的权重较大，提高了网络新词在文本中的权重，进而体现网络新词的重要性。

第一计算公式可以但不限于采用如下公式：

第二计算公式可以但不限于采用如下公式：

分类模块5用于将第一特征权重和第二特征权重构成待分类文本的特征向量，并根据特征向量对待分类文本进行分类。

具体的，分类模块5包括：计算单元51、选取单元52、判断单元53和分类单元54。

计算单元51用于计算待分类文本与已分类文本的相似度，并按照相似度由高至低的顺序对已分类文本进行排序。

其中，已分类文本按照分类类别存储于文本语料库中。

选取单元52用于从已分类文本中获取排序靠前的若干目标文本，也即选取距离待分类文本d_i最近的K个目标文本。

判断单元53用于判断K个目标文本是否属于同一分类类别，在判断为是时，将该待分类文本分配至该分类类别；在判断为否时，调用计算单元51以根据相似度计算待分类文本所属于若干目标文本所在分类类别的文本权重。

其中，计算文本权重可以但不限于采用如下公式：

分类单元54用于将待分类文本分配至文本权重最大的分类类别，也即通过比较各类权重P(d_i,c_r)的大小，将待分类文本d_i分到文本权重最大的类别中。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种文本的分类方法，其特征在于，所述分类方法包括：

设置网络新词库；所述网络新词库存储有网络新词；

将所述第一特征权重和所述第二特征权重构成所述待分类文本的特征向量，并根据所述特征向量对所述待分类文本进行分类；

其中，第一计算公式采用如下公式：

第二计算公式采用如下公式：

2.如权利要求1所述的文本的分类方法，其特征在于，根据所述网络新词库和所述常用词库对所述待分类文本进行分词处理的步骤之后，还包括：

将分词后的所述待分类文本转换为词频矩阵；

对所述词频矩阵进行特征提取，得到所述特征词。

3.如权利要求1所述的文本的分类方法，其特征在于，根据所述特征向量对所述待分类文本进行分类的步骤，具体包括：

从所述已分类文本中获取排序靠前的若干目标文本；

4.如权利要求1-3中任意一项所述的文本的分类方法，其特征在于，根据所述网络新词库和所述常用词库对所述待分类文本进行分词处理的步骤之后，还包括：

去除分词处理后的所述待分类文本中的停用词。

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的文本的分类方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的文本的分类方法的步骤。

7.一种文本的分类***，其特征在于，所述分类***包括：

网络新词库，用于存储网络新词；

常用词库，用于存储常用词；

分类模块，用于将所述第一特征权重和所述第二特征权重构成所述待分类文本的特征向量，并根据所述特征向量对所述待分类文本进行分类；

其中，第一计算公式采用如下公式：

第二计算公式采用如下公式：

8.如权利要求7所述的文本的分类***，其特征在于，所述分词模块具体包括：

9.如权利要求7所述的文本的分类***，其特征在于，所述分类模块具体包括：

10.如权利要求7-9中任意一项所述的文本的分类***，其特征在于，所述分词模块还包括：