CN112015895A

CN112015895A - 一种专利文本分类方法及装置

Info

Publication number: CN112015895A
Application number: CN202010870909.8A
Authority: CN
Inventors: 肖小清; 段新辉; 温柏坚; 周永言; 赵永发; 魏焱; 沈桂泉; 龙震岳; 沈伍强; 伍江瑶
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-12-01

Abstract

本申请提供了一种专利文本分类方法及装置，其中方法包括：获取待分类专利文本，并提取待分类专利文本的专利属性特征；对待分类专利文本进行分词处理和词向量构建处理，得到文本词向量特征；将专利属性特征与文本词向量特征输入到专利文本分类模型，以根据专利文本分类模型的运算，获得待分类专利文本的分类结果；其中，专利文本分类模型为根据预设的训练样本，结合预设的技术分类节点对应的分类信息集合构建的神经网络模型。本申请通过神经网络学习的方式，根据用户的技术体系建立的技术分类节点，并基于由技术分类节点构建的分类信息集合训练出的专利文本分类模型实现对专利文本的分类工作，解决了现有技术对专利文本的分类效率低的技术问题。

Description

一种专利文本分类方法及装置

技术领域

本申请涉及文本分类领域，尤其涉及一种专利文本分类方法及装置。

背景技术

伴随着目前我国大力发展知识产权的步伐，为了更好地保障自身的利益，不少企业开始重视对知识产权的运营，而且，对于技术性企业而言，专利文本是了解和掌握行业技术的一个有效途径，而且有助于为技术研发提供方向指引，出于这个目的，不少企业会选择基于自身的技术体系构建自己的专利数据库以便使用。

然而，专利文本与普通文本不同，其技术和法律特性表述非常强，且具有较多的附加属性，如分类号、申请人等，要按照自己的体系对专利进行分类是非常复杂且耗费时间，导致了现有技术对专利文本的分类工作执行效率低的技术问题。

发明内容

本申请提供了一种专利文本分类方法及装置，用于解决现有技术对专利文本的分类工作执行效率低的技术问题。

首先，本申请第一方面提供了一种专利文本分类方法，包括：

获取待分类专利文本，并提取所述待分类专利文本的专利属性特征；

对所述待分类专利文本进行分词处理和词向量构建处理，得到文本词向量特征；

将所述专利属性特征与所述文本词向量特征输入到专利文本分类模型，以根据所述专利文本分类模型的运算，获得所述待分类专利文本的分类结果；

其中，所述专利文本分类模型为根据预设的训练样本，结合预设的技术分类节点对应的分类信息集合构建的神经网络模型，所述训练样本具体根据预设的专利文本样本获得的专利属性特征和文本词向量特征。

可选地，所述将所述专利属性特征与所述文本词向量特征输入到专利文本分类模型，以根据所述专利文本分类模型的运算，获得所述待分类专利文本的分类结果具体包括：

将所述专利属性特征与所述文本词向量特征输入到专利文本分类模型，通过所述专利文本分类模型的运算，得到所述待分类专利文本与各个所述技术分类节点的匹配度；

根据各个所述匹配度的大小，以最大匹配度对应的技术分类节点对所述待分类专利文本进行分类，以获得所述待分类专利文本的分类结果。

可选地，所述根据各个所述匹配度的大小，以最大匹配度对应的技术分类节点对所述待分类专利文本进行分类，以获得所述待分类专利文本的分类结果之前还包括：

若各个所述匹配度均小于预设的匹配度阈值，则输出所述待分类专利文本的分类结果为分类失败。

可选地，所述专利文本分类模型的配置过程具体包括：

根据预设的训练样本，分别获得所述训练样本的专利属性特征和文本词向量特征；

将所述训练样本的专利属性特征、所述训练样本的文本词向量特征以及预设的技术分类节点对应的分类信息集合输入至初始神经网络模型进行模型训练，训练完成后得到所述专利文本分类模型。

可选地，所述训练样本的配置过程具体包括：

利用专利检索式从专利数据库中提取相应的专利文本，并基于所述专利检索式对所述专利文本进行信息标注，以获得训练样本。

其次，本申请第二方面提供了一种专利文本分类装置，包括：

专利属性特征提取单元，用于获取待分类专利文本，并提取所述待分类专利文本的专利属性特征；

词向量特征获取单元，用于对所述待分类专利文本进行分词处理和词向量构建处理，得到文本词向量特征；

专利文本分类单元，用于将所述专利属性特征与所述文本词向量特征输入到专利文本分类模型，以根据所述专利文本分类模型的运算，获得所述待分类专利文本的分类结果；

可选地，所述专利文本分类单元具体包括：

技术匹配度计算子单元，用于将所述专利属性特征与所述文本词向量特征输入到专利文本分类模型，通过所述专利文本分类模型的运算，得到所述待分类专利文本与各个所述技术分类节点的匹配度；

分类子单元，用于根据各个所述匹配度的大小，以最大匹配度对应的技术分类节点对所述待分类专利文本进行分类，以获得所述待分类专利文本的分类结果。

可选地，所述专利文本分类单元还包括：

匹配度判定子单元，用于若各个所述匹配度均小于预设的匹配度阈值，则输出所述待分类专利文本的分类结果为分类失败。

可选地，还包括：

样本特征获取单元，用于根据预设的训练样本，分别获得所述训练样本的专利属性特征和文本词向量特征；

模型训练单元，用于将所述训练样本的专利属性特征、所述训练样本的文本词向量特征以及预设的技术分类节点对应的分类信息集合输入至初始神经网络模型进行模型训练，训练完成后得到所述专利文本分类模型。

可选地，还包括：

样本标注单元，用于利用专利检索式从专利数据库中提取相应的专利文本，并基于所述专利检索式对所述专利文本进行信息标注，以获得训练样本。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供的一种专利文本分类方法，包括：获取待分类专利文本，并提取所述待分类专利文本的专利属性特征；对所述待分类专利文本进行分词处理和词向量构建处理，得到文本词向量特征；将所述专利属性特征与所述文本词向量特征输入到专利文本分类模型，以根据所述专利文本分类模型的运算，获得所述待分类专利文本的分类结果；其中，所述专利文本分类模型为根据预设的训练样本，结合预设的技术分类节点对应的分类信息集合构建的神经网络模型，所述训练样本具体根据预设的专利文本样本获得的专利属性特征和文本词向量特征。

本申请通过神经网络学习的方式，根据用户的技术体系建立若干个技术分类节点，并基于由技术分类节点构建的分类信息集合与作为训练样本的专利文本训练出的专利文本分类模型实现对专利文本的分类工作，解决了现有技术对专利文本的分类工作执行效率低的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种专利文本分类方法的第一个实施例的流程示意图；

图2为本申请提供的一种专利文本分类方法的第二个实施例的流程示意图；

图3为本申请提供的一种专利文本分类装置的第一个实施例的结构示意图。

具体实施方式

本申请实施例提供了一种专利文本分类方法及装置，用于解决现有技术对专利文本的分类工作执行效率低的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1，本申请第一个实施例提供了一种专利文本分类方法，包括：

步骤101、获取待分类专利文本，并提取待分类专利文本的专利属性特征；

首先，当获取到待分类的专利文本后，可以通过识别专利文本中的特殊字段，并根据这些特殊字段提取出相应的专利属性特征。

步骤102、对待分类专利文本进行分词处理和词向量构建处理，得到文本词向量特征；

然后，通过对待分类专利文本进行分词处理，将文本分割成一个个词语，并通过词向量构建处理，将分割出来的词语构建成对应的文本词向量特征。

步骤103、将专利属性特征与文本词向量特征输入到专利文本分类模型，以根据专利文本分类模型的运算，获得待分类专利文本的分类结果；

在接着将步骤101得到的专利属性特征和步骤102得到的文本词向量特征输入至预先训练好的专利文本分类模型，以根据专利文本分类模型的运算，获得待分类专利文本的分类结果。

其中，本实施例提及的专利文本分类模型为根据预设的训练样本，结合预设的技术分类节点对应的分类信息集合构建的神经网络模型，训练样本具体根据预设的专利文本样本获得的专利属性特征和文本词向量特征。

本申请实施例通过神经网络学习的方式，根据用户的技术体系建立若干个技术分类节点，并基于由技术分类节点构建的分类信息集合与作为训练样本的专利文本训练出的专利文本分类模型实现对专利文本的分类工作，解决了现有技术对专利文本的分类工作执行效率低的技术问题。

以上为本申请提供的一种专利文本分类方法的第一个实施例的详细说明，下面为本申请提供的一种专利文本分类方法的第二个实施例的详细说明。

请参阅图2，本申请第二个实施例提供了一种专利文本分类方法。

在本申请第一个实施例的基础上，进一步地，步骤103具体包括：

步骤1031、将专利属性特征与文本词向量特征输入到专利文本分类模型，通过专利文本分类模型的运算，得到待分类专利文本与各个技术分类节点的匹配度；

步骤1032、根据各个匹配度的大小，以最大匹配度对应的技术分类节点对待分类专利文本进行分类，以获得待分类专利文本的分类结果。

需要说明的是，在将专利属性特征与文本词向量特征输入到专利文本分类模型后，该专利文本分类模型会根据输入的专利属性特征、文本词向量特征与各个技术分类节点对应的分类信息集合进行比对，并输出该待分类专利文本的特征与各个技术分类节点的匹配度。以电力领域为例，技术分类节点可以包括输电、变电、用电和发电四大分类节点，每个技术节点还可以在细分出多个子分类节点，具体可由使用者自行设定，在此不做赘述。

根据专利文本分类模型输出的结果，确定出最大匹配度所对应的技术分类节点，根据这个最大匹配度对应的技术分类节点对待分类专利文本进行分类，从而获得待分类专利文本的分类结果。比如某篇专利属于发电分类的匹配度为0.80，变电分类的匹配度为0.50，变电分类的匹配度为0.40，变电分类的匹配度为0.30。***就判断此篇专利属于发电分类。

进一步地，本实施例在步骤1032之前还包括：

步骤10311，判断各个匹配度是否均小于预设的匹配度阈值，若是，则输出待分类专利文本的分类结果为分类失败，若否，则继续执行步骤1032。

需要说明的是，当各个技术分类节点对应的匹配度是否均小于预设的匹配度阈值，例如当模型输出的各个匹配度均低于0.5时，此时说明该专利文本属于这些技术分类节点的可能性很低，此时，输出分类失败的分类结果。

进一步地，本实施例的专利文本分类模型的配置过程具体包括：

步骤1001、根据预设的训练样本，分别获得训练样本的专利属性特征和文本词向量特征。

步骤1002、将训练样本的专利属性特征、训练样本的文本词向量特征以及预设的技术分类节点对应的分类信息集合输入至初始神经网络模型进行模型训练，训练完成后得到专利文本分类模型，其中本实施例提及的分类信息集合可以包括：该技术分类节点常用的技术关键词、专利分类号等。

进一步地，本实施例的训练样本的配置过程具体包括：

步骤1000、利用专利检索式从专利数据库中提取相应的专利文本，并基于专利检索式对专利文本进行信息标注，以获得训练样本。

需要说明的是，本实施例通过利用专利检索式检索的方式进行训练样本的生成，根据输入的专利检索式从专利数据库中提取相应的专利文本，根据检索式的关键信息在提取出专利文本的同时，基于专利检索式中的关键信息对专利文本进行信息标注，从而获得训练样本，提高了训练样本的配置效率。

本申请实施例通过神经网络学习的方式，根据用户的技术体系建立若干个技术分类节点，并基于由技术分类节点构建的分类信息集合与作为训练样本的专利文本训练出的专利文本分类模型实现对专利文本的分类工作，并结合检索式自动配置训练样本，进一步提高了模型训练的效率，解决了现有技术对专利文本的分类工作执行效率低的技术问题。

以上为本申请提供的一种专利文本分类方法的第二个实施例的详细说明，下面为本申请提供的一种专利文本分类装置的第一个实施例的详细说明。

请参阅图3，本申请第二方面提供了一种专利文本分类装置，包括：

专利属性特征提取单元301，用于获取待分类专利文本，并提取待分类专利文本的专利属性特征；

词向量特征获取单元302，用于对待分类专利文本进行分词处理和词向量构建处理，得到文本词向量特征；

专利文本分类单元303，用于将专利属性特征与文本词向量特征输入到专利文本分类模型，以根据专利文本分类模型的运算，获得待分类专利文本的分类结果；

其中，专利文本分类模型为根据预设的训练样本，结合预设的技术分类节点对应的分类信息集合构建的神经网络模型，训练样本具体根据预设的专利文本样本获得的专利属性特征和文本词向量特征。

进一步地，专利文本分类单元303具体包括：

技术匹配度计算子单元3031，用于将专利属性特征与文本词向量特征输入到专利文本分类模型，通过专利文本分类模型的运算，得到待分类专利文本与各个技术分类节点的匹配度；

分类子单元3032，用于根据各个匹配度的大小，以最大匹配度对应的技术分类节点对待分类专利文本进行分类，以获得待分类专利文本的分类结果。

进一步地，专利文本分类单元还包括：

匹配度判定子单元30311，用于若各个匹配度均小于预设的匹配度阈值，则输出待分类专利文本的分类结果为分类失败。

进一步地，还包括：

样本特征获取单元3001，用于根据预设的训练样本，分别获得训练样本的专利属性特征和文本词向量特征；

模型训练单元3002，用于将训练样本的专利属性特征、训练样本的文本词向量特征以及预设的技术分类节点对应的分类信息集合输入至初始神经网络模型进行模型训练，训练完成后得到专利文本分类模型。

进一步地，还包括：

样本标注单元3000，用于利用专利检索式从专利数据库中提取相应的专利文本，并基于专利检索式对专利文本进行信息标注，以获得训练样本。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种专利文本分类方法，其特征在于，包括：

2.根据权利要求1所述的一种专利文本分类方法，其特征在于，所述将所述专利属性特征与所述文本词向量特征输入到专利文本分类模型，以根据所述专利文本分类模型的运算，获得所述待分类专利文本的分类结果具体包括：

3.根据权利要求2所述的一种专利文本分类方法，其特征在于，所述根据各个所述匹配度的大小，以最大匹配度对应的技术分类节点对所述待分类专利文本进行分类，以获得所述待分类专利文本的分类结果之前还包括：

4.根据权利要求1所述的一种专利文本分类方法，其特征在于，所述专利文本分类模型的配置过程具体包括：

5.根据权利要求4所述的一种专利文本分类方法，其特征在于，所述训练样本的配置过程具体包括：

6.一种专利文本分类装置，其特征在于，包括：

7.根据权利要求6所述的一种专利文本分类装置，其特征在于，所述专利文本分类单元具体包括：

8.根据权利要求7所述的一种专利文本分类装置，其特征在于，所述专利文本分类单元还包括：

9.根据权利要求6所述的一种专利文本分类装置，其特征在于，还包括：

10.根据权利要求9所述的一种专利文本分类装置，其特征在于，还包括：