CN110781297A

CN110781297A - 基于层次判别树的多标签科研论文的分类方法

Info

Publication number: CN110781297A
Application number: CN201910881086.6A
Authority: CN
Inventors: 刘玮; 吴俊杰; 李超; 左源; 纪玉春; 袁石
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-02-11
Anticipated expiration: 2039-09-18
Also published as: CN110781297B

Abstract

本发明公开了一种基于层次判别树的多标签科研论文的分类方法，包括：步骤一、获取标签已知的论文和标签，提取标签的特征词语集合，构建二元判别模型；步骤二、将标签更新为二元判别模型，得层次判别树模型；步骤三、获取标签未知论文的文本表征，输入到层次判别树模型中根节点的所有二元判别模型中，计算具有该节点对应标签的概率，若大于阈值，则输出该根节点对应的标签；输入至该标签对应的节点的子节点的所有二元判别模型中，计算具有该节点代表标签的概率，若大于阈值，则输出该子节点对应的标签，逐级判断，直至叶节点；输出的所有标签即为该论文的标签。本发明具有充分挖掘论文的特征词语，快速、准确对论文进行层次分类的有益效果。

Description

基于层次判别树的多标签科研论文的分类方法

技术领域

本发明涉及科研论文分类领域。更具体地说，本发明涉及一种基于层次判别树的多标签科研论文的分类方法。

背景技术

科研论文的组织和管理一直受到出版机构、科研机构、科研工作者等的重点关注。在科研论文的组织和管理领域，科研论文的分类是一项重要的基础任务。该任务是根据已有的类别标签体系，将科研论文进行层次化的标签分类，对科学论文的快速检索、归纳和总结有非常重要的意义。一方面，科研论文分类可以帮助出版机构快速地定位最新科研论文的类别，并将最新论文加入引文数据库，提供优质化的论文数据服务。另一方面，科研论文分类可以支持科研机构和科研工作者按照已有的类别体系进行论文的快速检索和汇总，提高科研机构和科研工作者的检索和汇总效率。但是，已有的类别标签体系多层复杂的结构给科研论文分类带来了困难，比如现有的多层次标签体系结构，在拿到一个新的科研论文后，要将该论文在多层次标签体系中合理、全面的形成其分类标签，工作量大，工作难度高。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种基于层次判别树的多标签科研论文的分类方法，可以充分挖掘论文的特征词语，快速、准确对论文进行层次分类。

为了实现根据本发明的这些目的和其它优点，提供了一种基于层次判别树的多标签科研论文的分类方法，包括：

步骤一、构建二元判别模型：

获取在多层次标签体系中标签已知的所有论文和论文的标签，采用文本分词技术获取所有论文的文本表征，从文本表征中筛选得到每个标签的特征词语集合，每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型；

步骤二、构建层次判别树模型：将多层次标签体系中所有层级的标签更新为该标签的二元判别模型，形成层次判别树模型；

步骤三、对标签未知的论文分类：采用文本分词技术获取该论文的文本表征，将文本表征分别输入到层次判别树模型中根节点的所有二元判别模型中，二元判别模型计算该论文具有该节点对应标签的概率，若概率大于阈值，则输出该根节点对应的标签；

将文本表征输入至该层级的标签对应的节点的子节点的所有二元判别模型中，二元判别模型计算该论文具有该节点代表标签的概率，若概率大于阈值，则输出该子节点对应的标签；

按照从上至下的层级顺序判断，直至文本表征输入至层次判别树模型的叶节点的二元判别模型，且判别输出结果为止；

将从根节点开始到叶节点结束的路径上输出的所有标签，作为该论文的标签。

优选的是，采用文本分词技术获取文本表征的方法为：

采用分词及词性标注工具，对论文进行分词及词性标注，保留该文本中词性标注结果为名词的所有词语，形成词语集合Ⅰ；

采用BERT预训练语言模型，从论文中获取每个词语集合Ⅰ中的词语的语义向量，形成词语集合Ⅱ；

词语集合Ⅰ和词语集合Ⅱ组成该论文的文本表征。

优选的是，筛选得到每个标签的特征词语集合的方法为：从多层次标签体系的顶层标签开始，按照自根节点至叶节点的顺序，采用以下方法获取每个标签对应的特征词语；

该方法包括以下步骤：

步骤a、根据每个标签下的所有论文，计算这些论文的文本表征中每个词语的权重，权重计算公式如公式(1)所示：

其中，F_j(i)表示词语i在论文j中的频率，计算公式如公式(2)所示：

count(i)表示词语i在论文j中出现的次数，total_word_j表示论文j中总的词语数；N_t表示标签t下所有论文的数量；N_～t表示与标签t具有相同上级标签的其他标签下所有论文的数量；如果标签t是顶层标签，则～t表示其他的顶层标签；如果标签t是非顶层标签，则～t表示同属于标签t的上级标签下的其他标签；Nⁱ _～t表示在与标签t具有相同上级标签的其他标签下所有论文中，出现词语i的论文的数量；

步骤b、对该标签下的各词语的权重按从大到小的顺序排序，取排名前M个的词语为该标签的特征词语，形成该标签的初始特征词语集合；

步骤c、根据特征词语的语义特征，计算剩下的所有词语和初始特征词语集合中所有词语的语义相似度，计算公式如公式(3)所示：

其中，M表示该标签的初始特征词语集合中词语的数量，cos(j，i)表示词语j和词语i的语义表征的余弦距离，W_t(j)表示词语j在标签t中的权重；

对该标签下的剩下的所有词语按照语义相似度从大到小的顺序排序，排名前K个的词语为该标签的特征词语，形成该标签的补充特征词语集合；

标签的初始特征词语集合和补充特征词语集合，形成该标签的特征词语集合。

优选的是，M的取值为对应标签下的文本表征的词语总数的5％。

优选的是，M的取值不大于1000。

优选的是，每个标签的特征词语总数不大于5000。

优选的是，二元判别模型计算概率后，概率的阈值均为0.5。

优选的是，构建形成二元判别模型的方法为卷积神经网络、朴素贝叶斯、支持向量积的任意一种。

本发明至少包括以下有益效果：

第一、已有的多层次标签体系中的标签没有判断功能，只能依靠人的主观性去定义，如此，不能精确的知晓标签与论文之间的是否具备关联性，而形成层次判别树模型后，每个节点具备自动判别功能，只需要输入文本表征，即可输出该论文与该节点所对应的标签是否具备关联性，提高判别的准备性，且更为客观，不易出错。

第二、二元判别模型可以精准全面的反映标签与论文用词的关联关系，得到与该标签关联性最大的特征词语。而且随着论文数量的增加，更新，每个标签的特征词语集合也相应增加，更新，可以提升整个分类体系的准确性。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的其中一个技术方案的框架图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供一种基于层次判别树的多标签科研论文的分类方法，包括：

步骤一、构建二元判别模型：

获取在多层次标签体系中标签已知的所有论文和论文的标签，采用文本分词技术获取所有论文的文本表征，从文本表征中筛选得到每个标签的特征词语集合，每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型；该判别模型采用传统的数据挖掘方法，如支持向量积、朴素贝叶斯、逻辑回归等，可以判定一篇科研论文是否属于一个标签。如此得到的二元判别模型可以精准全面的反映标签与论文用词的关联关系，得到与该标签关联性最大的特征词语。而且随着论文数量的增加，更新，每个标签的特征词语集合也相应增加，更新，可以提升整个分类体系的准确性。

步骤二、构建层次判别树模型：将多层次标签体系中所有层级的标签更新为该标签的二元判别模型，形成层次判别树模型；已有的多层次标签体系中的标签没有判断功能，只能依靠人的主观性去定义，如此，不能精确的知晓标签与论文之间的是否具备关联性，而形成层次判别树模型后，每个节点具备自动判别功能，只需要输入文本表征，即可输出该论文与该节点所对应的标签是否具备关联性，提高判别的准备性，且更为客观，不易出错。

将从根节点开始到叶节点结束的路径上输出的所有标签，作为该论文的标签。从根节点按照层级顺序至叶节点逐级判别，以免遗漏，而且可以减少判断的工作量，快速准确的输出新论文的层次标签，进行分类。

在上述技术方案中，鉴于科研论文用词用语与标签之间的关联关系，利用已知标签的科研论文及其标签信息，获取每个标签对应的特征词语集合；然后，根据多层次标签体系，针对每个标签构建二元判别模型，并将所有标签的判别模型融合成层次判别树模型；最后，基于层次判别树模型，判定标签未知的科研论文所属的标签。该方法考虑科研论文用词用语和标签间的关联性，能够自动筛选标签相关的特征词语，并构建相应的二元判别模型。利用层次判别树模型实现对标签未知的科研论文的分类任务，充分挖掘标签间的层级关系。

在另一种技术方案中，采用文本分词技术获取文本表征的方法为：

词语集合Ⅰ和词语集合Ⅱ组成该论文的文本表征。

在另一种技术方案中，筛选得到每个标签的特征词语集合的方法为：从多层次标签体系的顶层标签开始，按照自根节点至叶节点的顺序，采用以下方法获取每个标签对应的特征词语；

该方法包括以下步骤：

在上述技术方案中，由于科研论文篇幅较长且与多层次标签分类无关的信息较多，所以提取科研论文中与多层次标签分类有关的信息，从而获取科研论文的文本表征，可以有助于提高分类效率和分类准确性。

在另一种技术方案中，M的取值为对应标签下的文本表征的词语总数的5％。M的取值会根据每个标签下的特征词语总数的大小而浮动调整，一般M取值为特征词语总数的5％。

在另一种技术方案中，M的取值不大于1000。考虑到部分标签所属科研论文的特征词语总数很大，会达到万级以上。这会导致M取值过大，容易增加噪声词语，降低多层次标签分类模型的效果。因此，本发明将M的取值上限定为1000，以减少噪声特征词语的数量。

在另一种技术方案中，每个标签的特征词语总数不大于5000。根据计算出的语义相似度，对剩下的所有词语进行排序，并取排名前K个词语，加入该标签的特征词语集合，实现对特征词语集合的扩充。为了防止引入过多的噪声特征词语，将M+K(即每个标签的特征词语总数)的取值上限定为5000。

在另一种技术方案中，二元判别模型计算概率后，概率的阈值均为0.5。以提高标签与论文对应的准确性。

在另一种技术方案中，构建形成二元判别模型的方法为卷积神经网络、朴素贝叶斯、支持向量积的任意一种。三种方法的对应关系准确，计算量小，判断快。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于层次判别树的多标签科研论文的分类方法，其特征在于，包括：

步骤一、构建二元判别模型：

2.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法，其特征在于，采用文本分词技术获取文本表征的方法为：

词语集合Ⅰ和词语集合Ⅱ组成该论文的文本表征。

3.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法，其特征在于，筛选得到每个标签的特征词语集合的方法为：从多层次标签体系的顶层标签开始，按照自根节点至叶节点的顺序，采用以下方法获取每个标签对应的特征词语；

该方法包括以下步骤：

其中，M表示该标签的初始特征词语集合中词语的数量，cos(j,i)表示词语j和词语i的语义表征的余弦距离，W_t(j)表示词语j在标签t中的权重；

4.如权利要求3所述的基于层次判别树的多标签科研论文的分类方法，其特征在于，M的取值为对应标签下的文本表征的词语总数的5％。

5.如权利要求4所述的基于层次判别树的多标签科研论文的分类方法，其特征在于，M的取值不大于1000。

6.如权利要求3所述的基于层次判别树的多标签科研论文的分类方法，其特征在于，每个标签的特征词语总数不大于5000。

7.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法，其特征在于，二元判别模型计算概率后，概率的阈值均为0.5。

8.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法，其特征在于，构建形成二元判别模型的方法为卷积神经网络、朴素贝叶斯、支持向量积的任意一种。