CN116069760B

CN116069760B - 一种专利管理数据处理***、装置及方法

Info

Publication number: CN116069760B
Application number: CN202310036319.9A
Authority: CN
Inventors: 张万伟
Original assignee: Qingdao Huahuize Intellectual Property Agency Co ltd
Current assignee: Qingdao Huahuize Intellectual Property Agency Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-12-15
Anticipated expiration: 2043-01-09
Also published as: CN116069760A

Abstract

本发明涉及数据处理技术领域，尤其为一种专利管理数据处理***、装置及方法，包括：专利数据接收层：用于接收专利数据；专利数据预处理层：用于对专利数据进行预处理；专利数据处理层：用于对专利数据进行处理；专利数据存储层：用于通过专利数据库存储专利数据：专利数据管理层：用于对存储的专利数据进行综合管理。本发明通过获取专利数据的深层特征，通过基于马氏距离进行分类的K近邻算法对专利数据进行自动集成分类，再存储至专利数据库中，并能够对各项专利数据进行综合管理，使用功能简单快捷，同时能够根据使用者制定的专利数据格式规范进行不同方式的存储，降低企业知识产权管理工作的管理成本，提高企业知识产权管理工作的工作效率。

Description

一种专利管理数据处理***、装置及方法

技术领域

本发明涉及数据处理技术领域，尤其是一种专利管理数据处理***、装置及方法。

背景技术

现代企业竞争日益激烈，竞争的手段是多种多样，其中知识产权的竞争是其中一个重要方面。目前，大多数企业都会申请知识产权对其自身的创新成果进行保护，对于科技创新型企业而言，其知识产权的保护形式主要是专利保护，对专利信息进行管理，是科技创新型企业管理工作的重要部分。而企业专利信息管理，主要是基于企业专利信息进行管理，专利信息不仅信息量大，而且还有一些期限信息，例如申请过程中的法定期限信息，又例如申请授权后的一些法定期限信息，需要借助一些智能化产品辅助管理工作。

企业通常使用电子表格等软件人工记录专利信息。但是这种管理方式过分依赖人工，具有各种不确定的因素，容易产生数据篡改、丢失、记录错误等情况。目前市场上有一些管理软件产品，但其功能复杂，不利于企业的管理，因此，亟待提出一种简易使用的专利信息智能化管理方案来克服这一缺陷，降低企业知识产权管理工作的管理成本，提高企业知识产权管理工作的工作效率。

发明内容

本发明的目的是通过提出一种专利管理数据处理***、装置及方法，以解决上述背景技术中提出的缺陷。

本发明采用的技术方案如下：

提供一种专利管理数据处理***，包括：

专利数据接收层：用于接收专利数据；

专利数据预处理层：用于对专利数据进行预处理；

专利数据处理层：用于对专利数据进行处理；

专利数据存储层：用于通过专利数据库存储专利数据：

专利数据管理层：用于对存储的专利数据进行综合管理。

作为本发明的一种优选技术方案：所述专利数据预处理层的预处理操作包括对专利数据内容、格式的核查与记录。

作为本发明的一种优选技术方案：所述专利数据预处理层的预处理操作还包括专利数据的缺失值处理、专利数据的离散化处理、专利数据的标准化和专利数据的归一化处理。

作为本发明的一种优选技术方案：所述专利数据处理层对于预处理后的专利数据进行分类集成。

作为本发明的一种优选技术方案：所述专利数据处理层获取专利数据序列W＝(w(1),w(2),…,w(L))，w(l)表示该专利数据序列中的第l个专利数据，给定局部滑动窗口大小q，表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词：w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率，其中，w(l)为中心专利数据，v(w(l))＝{w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集，构建跳字模型：

其中，R为跳字模型目标函数，θ是网络学习参数，l＝[1,L]为专利数据序列个数，p(v(w(l))|w(l),θ)表示专利数据为背景专利数据的概率；

又由于背景词的生成是相互独立的，跳字模型目标函数R改写为：

其中，p(w(l+k)|w(l),θ)表示专利数据为背景专利数据的概率，上式的极大似然估计等于损失函数：

其中，H为损失函数；

基于专利数据的训练，得到专利数据的词嵌入矩阵E，E是一个|V|×c的矩阵，|V|是词汇表大小，c是词嵌入空间的维度；构建平均词嵌入表示模型：

A_E＝(W_B⊙B)E

其中，A_E为专利数据的平均词嵌入表示矩阵，矩阵大小为t×c，t是专利数据中的文档数量；⊙表示矩阵的Hadamard积，B是专利数据的布尔表示矩阵，矩阵大小为t×|V|，矩阵元素为B_rs＝1表示单词s出现在文本r中，B_rs＝0表示文本r不包含单词s，W_B为平均词向量的权重：

其中，w₁w₂…w_t分别为文档内专利数据的平均词向量权重，是一个|V|维的全1列向量；

平均词向量加权将文档中的每一个专利数据视为权重相等，将这些专利数据的专利数据嵌入表示进行平均化，作为该文档的向量化表示。

作为本发明的一种优选技术方案：所述专利数据处理层中，根据专利数据的向量化表示，获取专利数据的马氏距离，通过马氏距离划定衡量标准，再通过K近邻算法对专利数据进行分类。

作为本发明的一种优选技术方案：所述专利数据的马氏距离算法如下：

令X是一个a×b的专利数据样本矩阵，包含a个专利数据样本x_i,i＝1,2,…,a，b为每个专利数据样本的特征数量，得到：

d²(x_i,X)＝(x_i-μ)Σ^-1(x_i-μ)^T

其中，d²(x_i，X)表示专利数据样本x_i到总体X的马氏距离的平方，μ是专利数据样本矩阵的均值向量，表示一个m维的全1列向量的转置，Σ是专利数据样本矩阵的协方差矩阵，/> 表示一个m维的全1列向量，Σ是一个实对称半正定矩阵，则存在一个正交矩阵P＝[e₁,e₂,…,e_n]，使得：

Σ＝PΛP^T

其中P＝[e₁,e₂,…,e_n]，满足i≠u,i,u＝1,2,…,n，Λ是一个对角矩阵，对角线上的元素α_i是Σ的特征值，且α₁≥α₂≥…≥α_n≥0，得到：

d²(x_i,X)＝(x_i-μ)PΛ^-1P^T(x_i-μ)^T

选择前d个大于0的特征值，相应的正交矩阵P^′＝[e₁,e₂,…,e_d]，令z_i＝(x_i-μ)P，则：

其中，表示改变正交矩阵后的(x_i-μ)P^′的值的平方，将x_i到X的马氏距离简化为d_i，得到：

其中表示样本(X-μ)P^′在第j个维度的方差。

作为本发明的一种优选技术方案：所述专利数据存储层将分类集成后的专利数据按照专利数据格式规范进行入库。

提供一种专利管理数据处理装置：包括：

专利数据获取模块：被配置为获取专利数据；

专利数据管理模块：被配置为管理获取的专利数据。

提供一种专利管理数据处理方法，包括如下步骤：

S1：获取专利数据；

S2：对获取的专利数据进行预处理；

S3：对预处理后的专利数据进行专利数据分类集成；

S4：对分类集成后的专利数据通过专利数据库进行存储。

本发明提供的专利管理数据处理***、装置及方法，与现有技术相比，其有益效果有：

本发明通过获取专利数据的深层特征，通过基于马氏距离进行分类的K近邻算法对专利数据进行自动集成分类，再存储至专利数据库中，并能够对各项专利数据进行综合管理，使用功能简单快捷，同时能够根据使用者制定的专利数据格式规范进行不同方式的存储，降低企业知识产权管理工作的管理成本，提高企业知识产权管理工作的工作效率。

附图说明

图1为本发明优选实施例的***框图；

图2为本发明优选实施例中方法流程图。

图中各个标记的意义为：100、专利数据接收层；200、专利数据预处理层；300、专利数据处理层；400、专利数据存储层；500、专利数据管理层。

具体实施方式

需要说明的是，在不冲突的情况下，本实施例中的实施例及实施例中的特征可以相互组合，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明优选实施例提供了一种专利管理数据处理，包括：

专利数据接收层100：用于接收专利数据；

专利数据预处理层200：用于对专利数据进行预处理；

专利数据处理层300：用于对专利数据进行处理；

专利数据存储层400：用于通过专利数据库存储专利数据：

专利数据管理层500：用于对存储的专利数据进行综合管理。

所述专利数据预处理层200的预处理操作包括对专利数据内容、格式的核查与记录。

所述专利数据预处理层200的预处理操作还包括专利数据的缺失值处理、专利数据的离散化处理、专利数据的标准化和专利数据的归一化处理。

所述专利数据处理层300对于预处理后的专利数据进行分类集成。

所述专利数据处理层300获取专利数据序列W＝(w(1),w(2),…,w(L))，w(l)表示该专利数据序列中的第l个专利数据，给定局部滑动窗口大小q，表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词：w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率，其中，w(l)为中心专利数据，v(w(l))＝{w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集，构建跳字模型：

其中，H为损失函数；

A_E＝(W_B⊙B)E

所述专利数据处理层300中，根据专利数据的向量化表示，获取专利数据的马氏距离，通过马氏距离划定衡量标准，再通过K近邻算法对专利数据进行分类。

所述专利数据的马氏距离算法如下：

d²(x_i,X)＝(x_i-μ)Σ^-1(x_i-μ)^T

Σ＝PΛP^T

d²(x_i,X)＝(x_i-μ)PΛ^-1P^T(x_i-μ)^T

其中表示样本(X-μ)P^′在第j个维度的方差。

所述专利数据存储层500将分类集成后的专利数据按照专利数据格式规范进行入库。

提供一种专利管理数据处理装置，包括：

专利数据获取模块：被配置为获取专利数据；

专利数据管理模块：被配置为管理获取的专利数据。

参照图2，提供一种专利管理数据处理方法，包括如下步骤：

S1：获取专利数据；

S2：对获取的专利数据进行预处理；

S3：对预处理后的专利数据进行专利数据分类集成；

S4：对分类集成后的专利数据通过专利数据库进行存储。

本实施例中，通过专利接收层100接收各类型专利数据，通过专利数据预处理层200对接收的专利数据进行初步预处理，包括对于存在信息缺失或不准确的专利数据的信息补充，专利内容与题目的核查，以及格式审查等，并进行记录，还包括对于专利数据的缺失值处理、专利数据的离散化处理、专利数据的标准化和专利数据的归一化处理等。

专利数据处理层300获取专利数据序列W＝(w(1),w(2),…,w(L))，w(l)表示该专利数据序列中的第l个专利数据，给定局部滑动窗口大小q，表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词：w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率，其中，w(l)为中心专利数据，v(w(l))＝{w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集，构建跳字模型：

其中，H为损失函数；

获取专利数据的浅层表示，但进包含专利数据的词频信息，故采用平均词嵌入方法，得到专利数据的深层特征，获取专利数据间的词义类比关系。

A_E＝(W_B⊙B)E

平均词向量加权将文档中的每一个专利数据视为权重相等，将这些专利数据的专利数据嵌入表示平均起来，作为该文档的向量化表示。

可以根据上述方法获取文档的向量化表示，段落的向量化表示等，以此获取专利数据的深层特征。

通过马氏距离分布专利数据，

令X是一个a×b的专利数据样本矩阵，包含a个专利数据样本x_i,i＝1,2,…,a，b为每个专利数据样本的特征数量，

d²(x_i,X)＝(x_i-μ)Σ^-1(x_i-μ)^T

Σ＝PΛP^T

d²(x_i,X)＝(x_i-μ)PΛ^-1P^T(x_i-μ)^T

其中，表示改变正交矩阵后的(x_i-μ)P^′的值的平方，正交矩阵P^′将投影到另一个d维空间，该空间中样本矩阵X的不同特征之间彼此正交，消除了特征之间的线性相关性和量纲影响，将x_i到X的马氏距离简化为d_i，得到：

其中表示样本(X-μ)P^′在第j个维度的方差，在马氏距离的度量下，样本x_i被投影为x_iP^′，投影后的数据一定位于以μP^′为质心，以d_iσ₁,d_iσ₂,…,d_iσ_d为轴的超椭圆球面上。对于X中不同的样本，σ₁,σ₂,…,σ_d是固定的，因此可以被视为超椭球的广义半径。马氏距离能够很好地适应专利数据的分布，可以通过马氏距离划分衡量标准，再通过K近邻算法对专利数据进行分类。如根据将专利数据分为发明专利、外观专利等。再通过专利数据存储层400将分类集成后的数据按照企业制定的专利数据格式规范进行入库，如根据专利类型、专利状态或申请时间等进行入库。企业可以通过专利数据管理层500对存储入专利数据库的专利数据进行综合管理。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种专利管理数据处理***，其特征在于：包括：

专利数据接收层(100)：用于接收专利数据；

专利数据预处理层(200)：用于对专利数据进行预处理；

专利数据处理层(300)：用于对专利数据进行处理；

专利数据存储层(400)：用于通过专利数据库存储专利数据：

专利数据管理层(500)：用于对存储的专利数据进行综合管理；

所述专利数据处理层(300)对于预处理后的专利数据进行分类集成；

所述专利数据处理层(300)获取专利数据序列W＝(w(1),w(2),…,w(L))，w(l)表示该专利数据序列中的第l个专利数据，给定局部滑动窗口大小q，表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词：w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率，其中，w(l)为中心专利数据，v(w(l))＝{w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集，构建跳字模型：

其中，H为损失函数；

A_E＝(W_B☉B)E

其中，w₁ w₂…w_t分别为文档内专利数据的平均词向量权重，是一个|V|维的全1列向量；

2.根据权利要求1所述的专利管理数据处理***，其特征在于：所述专利数据预处理层(200)的预处理操作包括对专利数据内容、格式的核查与记录。

3.根据权利要求2所述的专利管理数据处理***，其特征在于：所述专利数据预处理层(200)的预处理操作还包括专利数据的缺失值处理、专利数据的离散化处理、专利数据的标准化和专利数据的归一化处理。

4.根据权利要求1所述的专利管理数据处理***，其特征在于：所述专利数据处理层(300)中，根据专利数据的向量化表示，获取专利数据的马氏距离，通过马氏距离划定衡量标准，再通过K近邻算法对专利数据进行分类。

5.根据权利要求4所述的专利管理数据处理***，其特征在于：所述专利数据的马氏距离算法如下：

d²(x_i，X)＝(x_i-μ)∑^-1(x_i-μ)^T

∑＝PΛP^T

其中P＝[e₁,e₂,…,e_n]，满足Λ是一个对角矩阵，对角线上的元素α_i是Σ的特征值，且α₁≥α₂≥…≥α_n≥0，得到：

d²(x_i,X)＝(x_i-μ)PΛ^-1P^T(x_i-μ)^T

选择前d个大于0的特征值，相应的正交矩阵P′＝[e₁,e₂,…,e_d]，令z_i＝(x_i-μ)P，则：

其中，表示改变正交矩阵后的(x_i-μ)P′的值的平方，将x_i到X的马氏距离简化为d_i，得到：

其中表示样本(X-μ)P′在第j个维度的方差。

6.根据权利要求1所述的专利管理数据处理***，其特征在于：所述专利数据存储层(500)将分类集成后的专利数据按照专利数据格式规范进行入库。

7.一种专利管理数据处理方法，其特征在于：包括如下步骤：

S1：获取专利数据；

S2：对获取的专利数据进行预处理；

S3：对预处理后的专利数据进行专利数据分类集成；

S4：对分类集成后的专利数据通过专利数据库进行存储；

所述对预处理后的专利数据进行专利数据分类集成包括：

获取专利数据序列W＝(w(1),w(2),…,w(L))，w(l)表示该专利数据序列中的第l个专利数据，给定局部滑动窗口大小q，表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词：w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率，其中，w(l)为中心专利数据，v(w(l))＝{w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集，构建跳字模型：

其中，H为损失函数；

A_E＝(W_B☉B)E