CN105808524A

CN105808524A - 一种基于专利文献摘要的专利自动分类方法

Info

Publication number: CN105808524A
Application number: CN201610139838.8A
Authority: CN
Inventors: 彭彦; 朱玉全; 李竞; 何峰; 余飞
Original assignee: Jiangsu Changyuan Information Technology Co ltd
Current assignee: Jiangsu Changyuan Information Technology Co ltd
Priority date: 2016-03-11
Filing date: 2016-03-11
Publication date: 2016-07-27

Abstract

本发明公开了一种基于专利文献摘要的专利自动分类方法，该方法包括词典构建、IPC各层次类别特征向量的生成、专利文本特征选择、专利文本的向量化、基于SVM的分类模型构建、待分类专利的分类；在专利文本特征选择上充分利用了专利标题和摘要所包含的信息，明显减少了专利特征选择的计算量；在专利文本向量化的计算过程中，改进了TF‑IDF计算的方法，加入词语的词性权重和位置权重，进一步提高了分类效果；在专利分类方法上采用了一种基于层次分类的方法，该方法充分利用了SVM和KNN分类器的各自优点，克服了SVM分类器训练过多而KNN算法计算量大的缺点。

Description

一种基于专利文献摘要的专利自动分类方法

技术领域

本发明属于专利文献的计算机分析技术的应用领域，具体涉及一种利用专利摘要的专利分类方法。

背景技术

专利是指各国专利局或国际性专利组织出版的各种类型说明书的统称，是专利文献的主体。据世界知识产权组织(WIPO)统计，世界上发明成果的70％～90％首先出现在专利文献中，而不是杂志、论文等其他载体的文献中。此外，为了保护自身的利益，企业会尽可能早的申请专利，专利中往往集中了最为活跃和先进的技术，包含了世界上90％～95％的技术信息。同时为了审查的方便，专利文献往往撰写的比较详细，相对于其他类型的资料而言，专利文献能够提供更多的信息，是一种最常见的技术创新成果，记录着专利活动的完整过程。它不仅反映各个技术领域中技术活动的现状，而且能够体现某个特定技术领域中技术活动的发展历史。专利文献中含有每一件申请专利的发明创造的具体技术解决方案，对于企业创新具有非常重要的作用，不仅使企业可以了解最新科研动态，避免重复研究，节约研究时间和科研经费，同时还可启迪企业研究人员的创新思路，提高创新的起点，借鉴以往的发明，极大缩短科研工作进度。

随着我国新研究成果和发明创造的不断涌现，专利数量呈现出快速的增长，每年的专利申请数已接近100万。截止2015年12月29日，我国已公布的发明专利数已超过500万件，其中授权发明专利总数为186.610万件。如果每个专利的平均大小为2M，则专利数据的容量高达几百TB。为了科学地管理这些专利文献数据，同时也为了快速、方便地检索相关专利文献，专利文献的分类显得尤为重要。目前，世界上大多数国家均采用国际专利分类法IPC(InternationalPatentClassification)来对专利文献进行分类，IPC按照五个等级分类，即部(Section)、大类(Class)、小类(Subclass)、主组(MainGrop)、分组(Grop)，其中部是分类表中最高等级的分类层，按照领域不同，分为八个大部，用一位的英文字母标记，分别是A-H，每个部分下属设有多个大类，大类是由二位数字组成，每个部下面有不同数量的大类。例如：G06F21/00表示物理-电数字数据处理-防止未授权行为的保护计算机、其部件、程序或数据的安全装置。

由此可见，对于已公布的发明专利而言，均有一个与之对应的分类号，如G06F21/00。对于待申请的专利来讲，其分类号是未知并需要确定的，对此，目前通常的做法是根据专利描述对象的所属领域或专利内容来确定。一般情况下，这样的分类方法往往过于狭窄，并需依靠相关专家进行人工阅读申请书的内容来完成，专利文献的急剧增加使人工分析专利需要耗费的人力和物力增多，而且专家自身知识的局限性也难以保证分类的一致性和准确性。为此，本发明提出了一种基于专利文献摘要的专利自动分类方法，该方法利用已公布发明专利摘要中的信息来构造分类器或分类函数，并以此来确定待申请专利的类别，由此实现专利的自动分类。

发明内容

本发明的目的在于针对现有专利分类方法不能充分、有效地利用已公布发明专利中的摘要信息，提出一种基于专利文献摘要的专利自动分类方法，该方法将充分利用已公布发明专利所包含的摘要信息以及对应的类别来构造分类器或分类函数，以此来确定类别已提交申请专利的类别，并就构造过程中摘要的特征提取和选择、分类器的确定等方面提出了相应的优化解决方案。

本发明的技术方案是：一种基于专利文献摘要的专利自动分类方法，包括词典构建、IPC各层次类别特征向量的生成、专利文本特征选择、专利文本的向量化、基于SVM的分类模型构建、待分类专利分类步骤，其特征在于：词典构建、IPC各层次类别特征向量的生成、专利文本特征选择、专利文本的向量化、基于SVM的分类模型构建、待分类专利分类步骤包括：

步骤1专利数据预处理，包括样本IPC号、标题以及摘要的提取，中文分词、词性标注、去停用词以及词频统计；

步骤2利用正则匹配的方法，过滤掉非名词、动词或形容词的词语，生成记录词语位置和词性权重的倒排索引文件；

步骤3构建词典，将所有词构建成一个词典，词典的格式采用labelitem形式，如：1中国；

步骤4生成IPC各层次类别的特征向量，其步骤包括：

步骤4.1将各子组的类别描述并入所属主组的类别描述，进行分词、去停用词处理；

步骤4.2将每个主组的描述合并后进行特征选择，构造IPC小类层次的类别特征向量，向量表示为{V_A01B1/00,V_A01B3/00,...,V_H99Z99/00}。其中，A01B1/00为IPC中第一个主组，H99Z99/00为IPC中最后一个主组；

步骤4.3将同一个小类下的所有基本描述合并后进行特征选择，构造IPC大类层次的类别特征向量，向量表示为{V_A01B,V_A01C,...,V_H99Z}，其中，A01B为IPC中第一个小类，H99Z是IPC中最后一个小类。

步骤4.4将同一大类下的所有基本描述合并后进行特征选择，构造IPC部层次的类别特征向量，向量表示为{V_A01,V_A21,...,V_H99}，其中，A01为IPC中第一个大类，H99Z是IPC中最后一个大类。

步骤5专利文本特征选择，使用卡方特征选择方法计算所提词语的特征值，排序并选择K(由用户给定)个特征词来表征专利文本。

步骤6计算各个词语的特征值，利用倒排索引文件计算各个统计量；

步骤7专利文本的向量化，其步骤包括：

步骤7.1对特征词进行权重计算，计算公式为：

其中，其中表示特征词t在文本中出现的频率，N表示全部文本集中所有文本的个数，n表示全部文本集中出现词项t的文本数，C_t表示特征词词性所对应的词性权重系数，P_t表示特征词的位置权重系数；

步骤7.2对权重进行降序排序，构造专利文本的空间模型向量：V_i(w_i1,w_i2,...,w_in)，以此来表示每个专利文本的内容；

步骤8构建部级SVM训练集，其步骤包括：

步骤8.1将专利文本特征向量按IPC的部进行归并；

步骤8.2IPC部层次的类别特征向量加入到步骤8.1中的向量集合中去；

步骤8.3将向量集合转化为如下的训练集格式：

其中第一列为IPC部号，lable为词项，w为特征词权重；

步骤9在A-H部上构建基于SVM的分类模型，采用一对一策略的SVM多类分类方法，对训练集进行训练，生成专利部层次的分类器模型；

步骤10构建大类级SVM训练集，其步骤包括：

步骤10.1专利文本特征向量按IPC的大类进行归并；

步骤10.2IPC大类层次的类别特征向量加入到步骤10.1中的向量集合中去；

步骤10.3将向量集合转化为如下的训练集格式：

其中第一列为IPC的大类号，lable为词项，w为特征词权重；

步骤11在各个大类上构建基于SVM的分类模型，按照A-H部划分大类的训练集，分别对每个部的大类训练集进行训练，同样采用一对一策略的SVM多类分类方法，生成大类层次的分类器模型；

步骤12待分类专利在部和大类上的分类决策，其步骤包括：

步骤12.1待分类专利进行标题和摘要的提取、中文分词、词性标注、去停用词；

步骤12.2专利特征选择和向量化；

步骤12.3利用前面得到的树形分类器层次模型对待分类专利进行类别决策，确定待分类专利所属的大类；

步骤13专利小类层次的分类，利用基于IPC类别知识的KNN算法进行分类识别，其步骤包括：

步骤13.1计算待分类专利B_j特征向量与其所处大类中各个小类I特征向量的余弦相似度S_ai；

步骤13.2计算待分类专利B_j与其所处大类中的每个训练专利的余弦相似度S_bj；

步骤13.3将步骤13.2中的训练专利按相似度排序，如果其中最高的相似度低于域值，说明其错分了大类，将其归入错分类，否则转入步骤13.4；

步骤13.4选取相似度最高的K个训练专利，按照其小类类别分别与步骤13.1中的小类相似度加权求和，计算方式为：

S_{i} = S_{a i} + p \times \underset{B_{j} &Element; I}{Σ} S_{b j} - - - I I I

其中p是权重系数，S_i为待分类专利与各小类的最终相似度；

步骤13.5将待分类专利归入相似度S_i最大的小类。

本发明将充分利用已公布发明专利所包含的摘要信息以及对应的类别来构造分类器或分类函数，以此来确定类别已提交申请专利的类别，并就构造过程中摘要的特征提取和选择、分类器的确定等方面提出了相应的优化解决方案，其主要体现在：

(1)专利文本特征选择方面

专利标题和摘要指明了专利的名称和所属技术领域，清楚地反映了该专利所要解决的技术问题、技术方案以及主要用途，本发明专利充分利用了这些信息，明显减少了专利特征选择的计算量，且分类效果十分理想。另外，在专利文本向量化的计算过程中，改进了计算TF-IDF的方法，加入词语的词性权重和位置权重，从而进一步提高了分类效果。

(2)专利分类方法的设计方面

由于专利类别数较大，需要训练大量的SVM分类器，而且越是深层次的专利类别相似度越高，所以在专利小类上很难找到相应的SVM支持向量。而KNN算法是基于实例的分类算法，无需训练模型，但是由于专利部或大类包含的实例过多，其分类过程中的相似度计算量巨大。为此，本发明专利提出一种层次分类的方法，该方法充分利用了SVM和KNN分类器的各自优点，克服了SVM分类器训练过多而KNN算法计算量大的缺点。

附图说明

图1是本发明实施例中的结构框图

图2是本发明实施例中专利向量空间的构造流程

图3是本发明实施例中基于改进KNN的分类流程图

具体实施方式

本实例根据IPC类别表，在A-H部分别抽取专利样本1000篇，其中在同一个类别层次按照实际类别均匀抽取。具体执行步骤如下：

(1)获取IPC类别的描述，对描述进行分词和词性标注、去停用词处理，这里用的是中科院的ICTCLAS分词工具，对分词结果进行人工较正后，构建用户词典。

(2)分别对专利样本进行格式转换、标题和摘要提取，对标题和摘要进行中文分词、词性标注。利用正则表达式，去除停用词、虚词、连接词等对专利分类用处不大的词语，仅保留名词、形容词、动词。

(3)构建倒排索引文件，索引文件结构包括词汇表和事件表，每个词汇对应一个事件表，事件表存放词汇所出现的专利号。位置权重采用计算公式：其中n表示词汇在标题和摘用中出现的总次数，l_i表示词汇第i次出现所处位置的权重，实例中设标题权重1，摘要首句0.8，其他位置0.5。词性权重设定为名词2.5，动词和形容词均为1。

(4)利用倒排索引文件，构建由分词过滤获得的词汇组成的词典，每个词对应一个lable，构建的目的是为后面的SVM训练做准备，具体结果如表1所示。

表1用户词典和倒排索引合并

(5)在(1)的基础上，从小类开始逐层向上，计算每个词汇在对应层次的类别权重，权重的计算方式类似TF-IDF，将一个类别描述看作一个文本，然后构建各层次的类别特征向量。比如，将A01B小类下的所有组的词汇并成一个A01B词汇集，其他A01大类下的小类亦是如此，然后计算A01B词汇集中每个词的权重，最后构造A01B小类的特征向量。

(6)由于专利标题和摘要属于短文本，并且高度概括了专利的内容和所属的领域，类别区分度高的词汇出现的频率不一定是最高的，所以本实例中采用卡方特征选择方法。对于卡方的计算方法不在这里赘述，利用倒排索引文件统计计算在该方法中用到的几个统计量A_ij、B_ij、C_ij、D_ij(A_ij为包含特征词t_i并且属于c_j的文档数量，B_ij为包含特征词t_i并且类别不属于c_j的文档数量，C_ij为不包含特征词t_i并且类别属于c_j的文档数量，D_ij为不包含特征词t_i并且类别属于不c_j的文档数量。)。利用这四个统计量，计算专利中每个词与类别间的卡方值，值越大，说明词汇与类别的相关性越强。本实例对专利中每个词计算到的卡方值进行排序，选择其中前10个卡方值最大的词作为特征词。

(7)利用倒排索引文件，计算每个专利特征词的权重。倒排索引文件中已经记录了特征词的词频、位置权重、词性权重，所以只需要统计同样出现该特征词的文本数，至于总文本数也是已知的，利用的改进过的TF-IDF公式(II)计算权重，然后对权重进行了归一化，减少SVM训练的计算量。最后，构造专利的文本特征向量。

(8)构建SVM的训练集。本发明中采用的是libsvm库，所以训练集需要按照规定的格式来构健，具体格式已在发明内容中详细说明。将专利文本特征向量按层次分别保存到不同的文件中，A-H的专利向量格式化后保存到文件svm.train，用于部级的SVM训练。A部下的专利向量格式化后保存到文件svma.train，其他部下的专利向量格式化后也分别保存到各自文件中，用于大类级的SVM训练，具体结果如表2所示。

表2A-H的SVM训练集

(9)利用上述构造的训练集文件分别进行SVM训练，构建分类器。将训练集数据进行缩放至0-1之间，采用libsvm里面自带的缩放工具，本实例中修改改了一些入口参数，可以将缩放后的结果保存到文件中。对缩放后的训练集，利用libsvm来生成模型，结果总共产生9个SVM分类器模型。将这些分类器按树形结构组织，根节点为部级SVM分类器模型，其他8个SVM模型分别作为直接子节点挂在部级SVM模型下，具体结果如表3所示。

表3A-H的训练模型

(10)对待分类专利进行预处理、特征选择、向量化以及数据格式转换。首先，将转换后的待分类专利数据输入部级SVM分类器模型，预测其所属的部。然后，再将数据输入所属部的SVM分类器模型，预测其所属的大类。

(11)在(5)中已经计算了IPC各小类的类别特征向量，根据(10)中待分类专利划入的大类，计算该待分类专利向量与该大类下所有小类类别特征向量的余弦相似度值(小类特征相似度)。然后计算待分类专利向量与该大类下所有训练专利文本向量的余弦相似度值。对上述的相似度值进行归一化后排序，当最大的相似度小于域值时，认为此待分专利属于错分类，结束分类，该阈值由用户设定。如果大于阈值，则选取与带分类专利相似度最高的30个训练专利，根据这些训练专利的小类类别，利用公式(III)与小类特征相似度进行加权求和。对计算出的结果进行排序，将训练专利归入求和相似度值最高的类别。

Claims

1.一种基于专利文献摘要的专利自动分类方法，包括词典构建、IPC各层次类别特征向量的生成、专利文本特征选择、专利文本的向量化、基于SVM的分类模型构建、待分类专利分类步骤，其特征在于：词典构建、IPC各层次类别特征向量的生成、专利文本特征选择、专利文本的向量化、基于SVM的分类模型构建、待分类专利分类步骤包括：

步骤4生成IPC各层次类别的特征向量；

步骤5专利文本特征选择，使用卡方特征选择方法计算所提词语的特征值，排序并选择K(由用户给定)个特征词来表征专利文本；