CN116069760B - 一种专利管理数据处理***、装置及方法 - Google Patents
一种专利管理数据处理***、装置及方法 Download PDFInfo
- Publication number
- CN116069760B CN116069760B CN202310036319.9A CN202310036319A CN116069760B CN 116069760 B CN116069760 B CN 116069760B CN 202310036319 A CN202310036319 A CN 202310036319A CN 116069760 B CN116069760 B CN 116069760B
- Authority
- CN
- China
- Prior art keywords
- patent data
- data
- matrix
- layer
- management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000007726 management method Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000013500 data storage Methods 0.000 claims abstract description 9
- 238000013523 data management Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 73
- 230000006870 function Effects 0.000 claims description 22
- 230000010354 integration Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,尤其为一种专利管理数据处理***、装置及方法,包括:专利数据接收层:用于接收专利数据;专利数据预处理层:用于对专利数据进行预处理;专利数据处理层:用于对专利数据进行处理;专利数据存储层:用于通过专利数据库存储专利数据:专利数据管理层:用于对存储的专利数据进行综合管理。本发明通过获取专利数据的深层特征,通过基于马氏距离进行分类的K近邻算法对专利数据进行自动集成分类,再存储至专利数据库中,并能够对各项专利数据进行综合管理,使用功能简单快捷,同时能够根据使用者制定的专利数据格式规范进行不同方式的存储,降低企业知识产权管理工作的管理成本,提高企业知识产权管理工作的工作效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其是一种专利管理数据处理***、装置及方法。
背景技术
现代企业竞争日益激烈,竞争的手段是多种多样,其中知识产权的竞争是其中一个重要方面。目前,大多数企业都会申请知识产权对其自身的创新成果进行保护,对于科技创新型企业而言,其知识产权的保护形式主要是专利保护,对专利信息进行管理,是科技创新型企业管理工作的重要部分。而企业专利信息管理,主要是基于企业专利信息进行管理,专利信息不仅信息量大,而且还有一些期限信息,例如申请过程中的法定期限信息,又例如申请授权后的一些法定期限信息,需要借助一些智能化产品辅助管理工作。
企业通常使用电子表格等软件人工记录专利信息。但是这种管理方式过分依赖人工,具有各种不确定的因素,容易产生数据篡改、丢失、记录错误等情况。目前市场上有一些管理软件产品,但其功能复杂,不利于企业的管理,因此,亟待提出一种简易使用的专利信息智能化管理方案来克服这一缺陷,降低企业知识产权管理工作的管理成本,提高企业知识产权管理工作的工作效率。
发明内容
本发明的目的是通过提出一种专利管理数据处理***、装置及方法,以解决上述背景技术中提出的缺陷。
本发明采用的技术方案如下:
提供一种专利管理数据处理***,包括:
专利数据接收层:用于接收专利数据;
专利数据预处理层:用于对专利数据进行预处理;
专利数据处理层:用于对专利数据进行处理;
专利数据存储层:用于通过专利数据库存储专利数据:
专利数据管理层:用于对存储的专利数据进行综合管理。
作为本发明的一种优选技术方案:所述专利数据预处理层的预处理操作包括对专利数据内容、格式的核查与记录。
作为本发明的一种优选技术方案:所述专利数据预处理层的预处理操作还包括专利数据的缺失值处理、专利数据的离散化处理、专利数据的标准化和专利数据的归一化处理。
作为本发明的一种优选技术方案:所述专利数据处理层对于预处理后的专利数据进行分类集成。
作为本发明的一种优选技术方案:所述专利数据处理层获取专利数据序列W=(w(1),w(2),…,w(L)),w(l)表示该专利数据序列中的第l个专利数据,给定局部滑动窗口大小q,表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词:w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率,其中,w(l)为中心专利数据,v(w(l))={w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集,构建跳字模型:
其中,R为跳字模型目标函数,θ是网络学习参数,l=[1,L]为专利数据序列个数,p(v(w(l))|w(l),θ)表示专利数据为背景专利数据的概率;
又由于背景词的生成是相互独立的,跳字模型目标函数R改写为:
其中,p(w(l+k)|w(l),θ)表示专利数据为背景专利数据的概率,上式的极大似然估计等于损失函数:
其中,H为损失函数;
基于专利数据的训练,得到专利数据的词嵌入矩阵E,E是一个|V|×c的矩阵,|V|是词汇表大小,c是词嵌入空间的维度;构建平均词嵌入表示模型:
AE=(WB⊙B)E
其中,AE为专利数据的平均词嵌入表示矩阵,矩阵大小为t×c,t是专利数据中的文档数量;⊙表示矩阵的Hadamard积,B是专利数据的布尔表示矩阵,矩阵大小为t×|V|,矩阵元素为Brs=1表示单词s出现在文本r中,Brs=0表示文本r不包含单词s,WB为平均词向量的权重:
其中,w1w2…wt分别为文档内专利数据的平均词向量权重, 是一个|V|维的全1列向量;
平均词向量加权将文档中的每一个专利数据视为权重相等,将这些专利数据的专利数据嵌入表示进行平均化,作为该文档的向量化表示。
作为本发明的一种优选技术方案:所述专利数据处理层中,根据专利数据的向量化表示,获取专利数据的马氏距离,通过马氏距离划定衡量标准,再通过K近邻算法对专利数据进行分类。
作为本发明的一种优选技术方案:所述专利数据的马氏距离算法如下:
令X是一个a×b的专利数据样本矩阵,包含a个专利数据样本xi,i=1,2,…,a,b为每个专利数据样本的特征数量,得到:
d2(xi,X)=(xi-μ)Σ-1(xi-μ)T
其中,d2(xi,X)表示专利数据样本xi到总体X的马氏距离的平方,μ是专利数据样本矩阵的均值向量, 表示一个m维的全1列向量的转置,Σ是专利数据样本矩阵的协方差矩阵,/> 表示一个m维的全1列向量,Σ是一个实对称半正定矩阵,则存在一个正交矩阵P=[e1,e2,…,en],使得:
Σ=PΛPT
其中P=[e1,e2,…,en],满足i≠u,i,u=1,2,…,n,Λ是一个对角矩阵,对角线上的元素αi是Σ的特征值,且α1≥α2≥…≥αn≥0,得到:
d2(xi,X)=(xi-μ)PΛ-1PT(xi-μ)T
选择前d个大于0的特征值,相应的正交矩阵P′=[e1,e2,…,ed],令zi=(xi-μ)P,则:
其中,表示改变正交矩阵后的(xi-μ)P′的值的平方,将xi到X的马氏距离简化为di,得到:
其中表示样本(X-μ)P′在第j个维度的方差。
作为本发明的一种优选技术方案:所述专利数据存储层将分类集成后的专利数据按照专利数据格式规范进行入库。
提供一种专利管理数据处理装置:包括:
专利数据获取模块:被配置为获取专利数据;
专利数据管理模块:被配置为管理获取的专利数据。
提供一种专利管理数据处理方法,包括如下步骤:
S1:获取专利数据;
S2:对获取的专利数据进行预处理;
S3:对预处理后的专利数据进行专利数据分类集成;
S4:对分类集成后的专利数据通过专利数据库进行存储。
本发明提供的专利管理数据处理***、装置及方法,与现有技术相比,其有益效果有:
本发明通过获取专利数据的深层特征,通过基于马氏距离进行分类的K近邻算法对专利数据进行自动集成分类,再存储至专利数据库中,并能够对各项专利数据进行综合管理,使用功能简单快捷,同时能够根据使用者制定的专利数据格式规范进行不同方式的存储,降低企业知识产权管理工作的管理成本,提高企业知识产权管理工作的工作效率。
附图说明
图1为本发明优选实施例的***框图;
图2为本发明优选实施例中方法流程图。
图中各个标记的意义为:100、专利数据接收层;200、专利数据预处理层;300、专利数据处理层;400、专利数据存储层;500、专利数据管理层。
具体实施方式
需要说明的是,在不冲突的情况下,本实施例中的实施例及实施例中的特征可以相互组合,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明优选实施例提供了一种专利管理数据处理,包括:
专利数据接收层100:用于接收专利数据;
专利数据预处理层200:用于对专利数据进行预处理;
专利数据处理层300:用于对专利数据进行处理;
专利数据存储层400:用于通过专利数据库存储专利数据:
专利数据管理层500:用于对存储的专利数据进行综合管理。
所述专利数据预处理层200的预处理操作包括对专利数据内容、格式的核查与记录。
所述专利数据预处理层200的预处理操作还包括专利数据的缺失值处理、专利数据的离散化处理、专利数据的标准化和专利数据的归一化处理。
所述专利数据处理层300对于预处理后的专利数据进行分类集成。
所述专利数据处理层300获取专利数据序列W=(w(1),w(2),…,w(L)),w(l)表示该专利数据序列中的第l个专利数据,给定局部滑动窗口大小q,表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词:w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率,其中,w(l)为中心专利数据,v(w(l))={w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集,构建跳字模型:
其中,R为跳字模型目标函数,θ是网络学习参数,l=[1,L]为专利数据序列个数,p(v(w(l))|w(l),θ)表示专利数据为背景专利数据的概率;
又由于背景词的生成是相互独立的,跳字模型目标函数R改写为:
其中,p(w(l+k)|w(l),θ)表示专利数据为背景专利数据的概率,上式的极大似然估计等于损失函数:
其中,H为损失函数;
基于专利数据的训练,得到专利数据的词嵌入矩阵E,E是一个|V|×c的矩阵,|V|是词汇表大小,c是词嵌入空间的维度;构建平均词嵌入表示模型:
AE=(WB⊙B)E
其中,AE为专利数据的平均词嵌入表示矩阵,矩阵大小为t×c,t是专利数据中的文档数量;⊙表示矩阵的Hadamard积,B是专利数据的布尔表示矩阵,矩阵大小为t×|V|,矩阵元素为Brs=1表示单词s出现在文本r中,Brs=0表示文本r不包含单词s,WB为平均词向量的权重:
其中,w1w2…wt分别为文档内专利数据的平均词向量权重, 是一个|V|维的全1列向量;
平均词向量加权将文档中的每一个专利数据视为权重相等,将这些专利数据的专利数据嵌入表示进行平均化,作为该文档的向量化表示。
所述专利数据处理层300中,根据专利数据的向量化表示,获取专利数据的马氏距离,通过马氏距离划定衡量标准,再通过K近邻算法对专利数据进行分类。
所述专利数据的马氏距离算法如下:
令X是一个a×b的专利数据样本矩阵,包含a个专利数据样本xi,i=1,2,…,a,b为每个专利数据样本的特征数量,得到:
d2(xi,X)=(xi-μ)Σ-1(xi-μ)T
其中,d2(xi,X)表示专利数据样本xi到总体X的马氏距离的平方,μ是专利数据样本矩阵的均值向量, 表示一个m维的全1列向量的转置,Σ是专利数据样本矩阵的协方差矩阵,/> 表示一个m维的全1列向量,Σ是一个实对称半正定矩阵,则存在一个正交矩阵P=[e1,e2,…,en],使得:
Σ=PΛPT
其中P=[e1,e2,…,en],满足i≠u,i,u=1,2,…,n,Λ是一个对角矩阵,对角线上的元素αi是Σ的特征值,且α1≥α2≥…≥αn≥0,得到:
d2(xi,X)=(xi-μ)PΛ-1PT(xi-μ)T
选择前d个大于0的特征值,相应的正交矩阵P′=[e1,e2,…,ed],令zi=(xi-μ)P,则:
其中,表示改变正交矩阵后的(xi-μ)P′的值的平方,将xi到X的马氏距离简化为di,得到:
其中表示样本(X-μ)P′在第j个维度的方差。
所述专利数据存储层500将分类集成后的专利数据按照专利数据格式规范进行入库。
提供一种专利管理数据处理装置,包括:
专利数据获取模块:被配置为获取专利数据;
专利数据管理模块:被配置为管理获取的专利数据。
参照图2,提供一种专利管理数据处理方法,包括如下步骤:
S1:获取专利数据;
S2:对获取的专利数据进行预处理;
S3:对预处理后的专利数据进行专利数据分类集成;
S4:对分类集成后的专利数据通过专利数据库进行存储。
本实施例中,通过专利接收层100接收各类型专利数据,通过专利数据预处理层200对接收的专利数据进行初步预处理,包括对于存在信息缺失或不准确的专利数据的信息补充,专利内容与题目的核查,以及格式审查等,并进行记录,还包括对于专利数据的缺失值处理、专利数据的离散化处理、专利数据的标准化和专利数据的归一化处理等。
专利数据处理层300获取专利数据序列W=(w(1),w(2),…,w(L)),w(l)表示该专利数据序列中的第l个专利数据,给定局部滑动窗口大小q,表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词:w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率,其中,w(l)为中心专利数据,v(w(l))={w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集,构建跳字模型:
其中,R为跳字模型目标函数,θ是网络学习参数,l=[1,L]为专利数据序列个数,p(v(w(l))|w(l),θ)表示专利数据为背景专利数据的概率;
又由于背景词的生成是相互独立的,跳字模型目标函数R改写为:
其中,p(w(l+k)|w(l),θ)表示专利数据为背景专利数据的概率,上式的极大似然估计等于损失函数:
其中,H为损失函数;
获取专利数据的浅层表示,但进包含专利数据的词频信息,故采用平均词嵌入方法,得到专利数据的深层特征,获取专利数据间的词义类比关系。
基于专利数据的训练,得到专利数据的词嵌入矩阵E,E是一个|V|×c的矩阵,|V|是词汇表大小,c是词嵌入空间的维度;构建平均词嵌入表示模型:
AE=(WB⊙B)E
其中,AE为专利数据的平均词嵌入表示矩阵,矩阵大小为t×c,t是专利数据中的文档数量;⊙表示矩阵的Hadamard积,B是专利数据的布尔表示矩阵,矩阵大小为t×|V|,矩阵元素为Brs=1表示单词s出现在文本r中,Brs=0表示文本r不包含单词s,WB为平均词向量的权重:
其中,w1w2…wt分别为文档内专利数据的平均词向量权重, 是一个|V|维的全1列向量;
平均词向量加权将文档中的每一个专利数据视为权重相等,将这些专利数据的专利数据嵌入表示平均起来,作为该文档的向量化表示。
可以根据上述方法获取文档的向量化表示,段落的向量化表示等,以此获取专利数据的深层特征。
通过马氏距离分布专利数据,
令X是一个a×b的专利数据样本矩阵,包含a个专利数据样本xi,i=1,2,…,a,b为每个专利数据样本的特征数量,
d2(xi,X)=(xi-μ)Σ-1(xi-μ)T
其中,d2(xi,X)表示专利数据样本xi到总体X的马氏距离的平方,μ是专利数据样本矩阵的均值向量, 表示一个m维的全1列向量的转置,Σ是专利数据样本矩阵的协方差矩阵,/> 表示一个m维的全1列向量,Σ是一个实对称半正定矩阵,则存在一个正交矩阵P=[e1,e2,…,en],使得:
Σ=PΛPT
其中P=[e1,e2,…,en],满足i≠u,i,u=1,2,…,n,Λ是一个对角矩阵,对角线上的元素αi是Σ的特征值,且α1≥α2≥…≥αn≥0,得到:
d2(xi,X)=(xi-μ)PΛ-1PT(xi-μ)T
选择前d个大于0的特征值,相应的正交矩阵P′=[e1,e2,…,ed],令zi=(xi-μ)P,则:
其中,表示改变正交矩阵后的(xi-μ)P′的值的平方,正交矩阵P′将投影到另一个d维空间,该空间中样本矩阵X的不同特征之间彼此正交,消除了特征之间的线性相关性和量纲影响,将xi到X的马氏距离简化为di,得到:
其中表示样本(X-μ)P′在第j个维度的方差,在马氏距离的度量下,样本xi被投影为xiP′,投影后的数据一定位于以μP′为质心,以diσ1,diσ2,…,diσd为轴的超椭圆球面上。对于X中不同的样本,σ1,σ2,…,σd是固定的,因此可以被视为超椭球的广义半径。马氏距离能够很好地适应专利数据的分布,可以通过马氏距离划分衡量标准,再通过K近邻算法对专利数据进行分类。如根据将专利数据分为发明专利、外观专利等。再通过专利数据存储层400将分类集成后的数据按照企业制定的专利数据格式规范进行入库,如根据专利类型、专利状态或申请时间等进行入库。企业可以通过专利数据管理层500对存储入专利数据库的专利数据进行综合管理。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种专利管理数据处理***,其特征在于:包括:
专利数据接收层(100):用于接收专利数据;
专利数据预处理层(200):用于对专利数据进行预处理;
专利数据处理层(300):用于对专利数据进行处理;
专利数据存储层(400):用于通过专利数据库存储专利数据:
专利数据管理层(500):用于对存储的专利数据进行综合管理;
所述专利数据处理层(300)对于预处理后的专利数据进行分类集成;
所述专利数据处理层(300)获取专利数据序列W=(w(1),w(2),…,w(L)),w(l)表示该专利数据序列中的第l个专利数据,给定局部滑动窗口大小q,表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词:w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率,其中,w(l)为中心专利数据,v(w(l))={w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集,构建跳字模型:
其中,R为跳字模型目标函数,θ是网络学习参数,l=[1,L]为专利数据序列个数,p(v(w(l))|w(l),θ)表示专利数据为背景专利数据的概率;
又由于背景词的生成是相互独立的,跳字模型目标函数R改写为:
其中,p(w(l+k)|w(l),θ)表示专利数据为背景专利数据的概率,上式的极大似然估计等于损失函数:
其中,H为损失函数;
基于专利数据的训练,得到专利数据的词嵌入矩阵E,E是一个|V|×c的矩阵,|V|是词汇表大小,c是词嵌入空间的维度;构建平均词嵌入表示模型:
AE=(WB☉B)E
其中,AE为专利数据的平均词嵌入表示矩阵,矩阵大小为t×c,t是专利数据中的文档数量;⊙表示矩阵的Hadamard积,B是专利数据的布尔表示矩阵,矩阵大小为t×|V|,矩阵元素为Brs=1表示单词s出现在文本r中,Brs=0表示文本r不包含单词s,WB为平均词向量的权重:
其中,w1 w2…wt分别为文档内专利数据的平均词向量权重, 是一个|V|维的全1列向量;
平均词向量加权将文档中的每一个专利数据视为权重相等,将这些专利数据的专利数据嵌入表示进行平均化,作为该文档的向量化表示。
2.根据权利要求1所述的专利管理数据处理***,其特征在于:所述专利数据预处理层(200)的预处理操作包括对专利数据内容、格式的核查与记录。
3.根据权利要求2所述的专利管理数据处理***,其特征在于:所述专利数据预处理层(200)的预处理操作还包括专利数据的缺失值处理、专利数据的离散化处理、专利数据的标准化和专利数据的归一化处理。
4.根据权利要求1所述的专利管理数据处理***,其特征在于:所述专利数据处理层(300)中,根据专利数据的向量化表示,获取专利数据的马氏距离,通过马氏距离划定衡量标准,再通过K近邻算法对专利数据进行分类。
5.根据权利要求4所述的专利管理数据处理***,其特征在于:所述专利数据的马氏距离算法如下:
令X是一个a×b的专利数据样本矩阵,包含a个专利数据样本xi,i=1,2,…,a,b为每个专利数据样本的特征数量,得到:
d2(xi,X)=(xi-μ)∑-1(xi-μ)T
其中,d2(xi,X)表示专利数据样本xi到总体X的马氏距离的平方,μ是专利数据样本矩阵的均值向量, 表示一个m维的全1列向量的转置,Σ是专利数据样本矩阵的协方差矩阵,/> 表示一个m维的全1列向量,Σ是一个实对称半正定矩阵,则存在一个正交矩阵P=[e1,e2,…,en],使得:
∑=PΛPT
其中P=[e1,e2,…,en],满足Λ是一个对角矩阵,对角线上的元素αi是Σ的特征值,且α1≥α2≥…≥αn≥0,得到:
d2(xi,X)=(xi-μ)PΛ-1PT(xi-μ)T
选择前d个大于0的特征值,相应的正交矩阵P′=[e1,e2,…,ed],令zi=(xi-μ)P,则:
其中,表示改变正交矩阵后的(xi-μ)P′的值的平方,将xi到X的马氏距离简化为di,得到:
其中表示样本(X-μ)P′在第j个维度的方差。
6.根据权利要求1所述的专利管理数据处理***,其特征在于:所述专利数据存储层(500)将分类集成后的专利数据按照专利数据格式规范进行入库。
7.一种专利管理数据处理方法,其特征在于:包括如下步骤:
S1:获取专利数据;
S2:对获取的专利数据进行预处理;
S3:对预处理后的专利数据进行专利数据分类集成;
S4:对分类集成后的专利数据通过专利数据库进行存储;
所述对预处理后的专利数据进行专利数据分类集成包括:
获取专利数据序列W=(w(1),w(2),…,w(L)),w(l)表示该专利数据序列中的第l个专利数据,给定局部滑动窗口大小q,表示通过w(l)预测在序列W中w(l)的前面q个词和后面q个词:w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率,其中,w(l)为中心专利数据,v(w(l))={w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集,构建跳字模型:
其中,R为跳字模型目标函数,θ是网络学习参数,l=[1,L]为专利数据序列个数,p(v(w(l))|w(l),θ)表示专利数据为背景专利数据的概率;
又由于背景词的生成是相互独立的,跳字模型目标函数R改写为:
其中,p(w(l+k)|w(l),θ)表示专利数据为背景专利数据的概率,上式的极大似然估计等于损失函数:
其中,H为损失函数;
基于专利数据的训练,得到专利数据的词嵌入矩阵E,E是一个|V|×c的矩阵,|V|是词汇表大小,c是词嵌入空间的维度;构建平均词嵌入表示模型:
AE=(WB☉B)E
其中,AE为专利数据的平均词嵌入表示矩阵,矩阵大小为t×c,t是专利数据中的文档数量;⊙表示矩阵的Hadamard积,B是专利数据的布尔表示矩阵,矩阵大小为t×|V|,矩阵元素为Brs=1表示单词s出现在文本r中,Brs=0表示文本r不包含单词s,WB为平均词向量的权重:
其中,w1 w2…wt分别为文档内专利数据的平均词向量权重, 是一个|V|维的全1列向量;
平均词向量加权将文档中的每一个专利数据视为权重相等,将这些专利数据的专利数据嵌入表示进行平均化,作为该文档的向量化表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310036319.9A CN116069760B (zh) | 2023-01-09 | 2023-01-09 | 一种专利管理数据处理***、装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310036319.9A CN116069760B (zh) | 2023-01-09 | 2023-01-09 | 一种专利管理数据处理***、装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116069760A CN116069760A (zh) | 2023-05-05 |
CN116069760B true CN116069760B (zh) | 2023-12-15 |
Family
ID=86178093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310036319.9A Active CN116069760B (zh) | 2023-01-09 | 2023-01-09 | 一种专利管理数据处理***、装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116069760B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理*** |
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
CN110674291A (zh) * | 2019-08-22 | 2020-01-10 | 昆明理工大学 | 一种基于多元神经网络融合的中文专利文本效应类别分类方法 |
CN111125304A (zh) * | 2019-12-02 | 2020-05-08 | 昆明理工大学 | 一种基于word2vec的专利文本自动分类方法 |
CN111209386A (zh) * | 2020-01-07 | 2020-05-29 | 重庆邮电大学 | 一种基于深度学习的个性化文本推荐方法 |
CN112487192A (zh) * | 2020-12-16 | 2021-03-12 | 华南农业大学 | 一种基于triz的中文专利语料库半自动构建方法 |
CN112836509A (zh) * | 2021-02-22 | 2021-05-25 | 西安交通大学 | 一种专家***知识库构建方法及*** |
CN112948581A (zh) * | 2021-02-05 | 2021-06-11 | 中国科学技术大学 | 专利自动分类方法、装置、电子设备及存储介质 |
CN113468291A (zh) * | 2021-06-17 | 2021-10-01 | 中国科学技术大学 | 基于专利网络表示学习的专利自动分类方法 |
CN113918710A (zh) * | 2020-11-18 | 2022-01-11 | 京东科技控股股份有限公司 | 文本数据处理方法、装置、电子设备和可读存储介质 |
CN115221281A (zh) * | 2022-07-04 | 2022-10-21 | 福建华昊信息技术咨询有限公司 | 知识产权检索***及其检索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190213407A1 (en) * | 2018-01-11 | 2019-07-11 | Teqmine Analytics Oy | Automated Analysis System and Method for Analyzing at Least One of Scientific, Technological and Business Information |
US20200050638A1 (en) * | 2018-08-12 | 2020-02-13 | Parker Douglas Hancock | Systems and methods for analyzing the validity or infringment of patent claims |
-
2023
- 2023-01-09 CN CN202310036319.9A patent/CN116069760B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理*** |
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
CN110674291A (zh) * | 2019-08-22 | 2020-01-10 | 昆明理工大学 | 一种基于多元神经网络融合的中文专利文本效应类别分类方法 |
CN111125304A (zh) * | 2019-12-02 | 2020-05-08 | 昆明理工大学 | 一种基于word2vec的专利文本自动分类方法 |
CN111209386A (zh) * | 2020-01-07 | 2020-05-29 | 重庆邮电大学 | 一种基于深度学习的个性化文本推荐方法 |
CN113918710A (zh) * | 2020-11-18 | 2022-01-11 | 京东科技控股股份有限公司 | 文本数据处理方法、装置、电子设备和可读存储介质 |
CN112487192A (zh) * | 2020-12-16 | 2021-03-12 | 华南农业大学 | 一种基于triz的中文专利语料库半自动构建方法 |
CN112948581A (zh) * | 2021-02-05 | 2021-06-11 | 中国科学技术大学 | 专利自动分类方法、装置、电子设备及存储介质 |
CN112836509A (zh) * | 2021-02-22 | 2021-05-25 | 西安交通大学 | 一种专家***知识库构建方法及*** |
CN113468291A (zh) * | 2021-06-17 | 2021-10-01 | 中国科学技术大学 | 基于专利网络表示学习的专利自动分类方法 |
CN115221281A (zh) * | 2022-07-04 | 2022-10-21 | 福建华昊信息技术咨询有限公司 | 知识产权检索***及其检索方法 |
Non-Patent Citations (4)
Title |
---|
A text-embedding-based approach to measuring patent-to-patent technological similarity;Daniel S. Hain 等;Technological Forecasting and Social Change;1-15 * |
DeepPatent: patent classification with convolutional neural networks and word embedding;Li Shaobo 等;Scientometrics;721-744 * |
企业思维下高校专利管理机制创新研究;王博弘;科技创新与生产力;76-79 * |
基于情感特征和BLSTM的短文本分类方法研究;周灵;信息科技;1-60 * |
Also Published As
Publication number | Publication date |
---|---|
CN116069760A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DeSarbo et al. | Synthesized clustering: A method for amalgamating alternative clustering bases with differential weighting of variables | |
Escalante | A comparison of outlier detection algorithms for machine learning | |
US7707132B2 (en) | User preference techniques for support vector machines in content based image retrieval | |
US8165410B2 (en) | Bags of visual context-dependent words for generic visual categorization | |
US20060161403A1 (en) | Method and system for analyzing data and creating predictive models | |
US8428397B1 (en) | Systems and methods for large scale, high-dimensional searches | |
Fan et al. | Pruning and dynamic scheduling of cost-sensitive ensembles | |
JP2012053880A (ja) | 実験データの分布状階層的発展型モデリングと可視化の方法 | |
Han et al. | High-order statistics of microtexton for hep-2 staining pattern classification | |
US8185480B2 (en) | System and method for optimizing pattern recognition of non-gaussian parameters | |
US20030172284A1 (en) | Personal identity authenticatication process and system | |
Doyle et al. | Predicting future disease activity and treatment responders for multiple sclerosis patients using a bag-of-lesions brain representation | |
CN111950647A (zh) | 分类模型训练方法和设备 | |
JP3480563B2 (ja) | パターン識別のための特徴抽出装置 | |
CN112541530B (zh) | 针对聚类模型的数据预处理方法及装置 | |
JP2008134750A (ja) | データ分類装置、データ分類方法およびデータ分類プログラムならびに記録媒体 | |
CN116069760B (zh) | 一种专利管理数据处理***、装置及方法 | |
US20080095428A1 (en) | Method for training of supervised prototype neural gas networks and their use in mass spectrometry | |
CN116228278B (zh) | 基于大数据的用户画像建立方法和用户画像管理*** | |
CN117455515A (zh) | 一种在线侵权商品自动化巡检*** | |
Mensah et al. | Improving performance of colour-histogram-based CBIR using bin matching for similarity measure | |
CN115186138A (zh) | 一种配电网数据的比对方法及终端 | |
CN113221995B (zh) | 基于半监督深度分类算法的数据分类方法、设备及装置 | |
CN111222570B (zh) | 基于差分隐私的集成学习分类方法 | |
Dougherty et al. | Feature extraction and selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231122 Address after: 266000 room 602, block a, building 12, 288 Ningxia road, Shinan District, Qingdao City, Shandong Province Applicant after: QINGDAO HUAHUIZE INTELLECTUAL PROPERTY AGENCY Co.,Ltd. Address before: No. 1318, Xichenggezhuang, Longshan Office, Jimo City, Qingdao City, Shandong Province, 266000 Applicant before: QINGDAO ZHONGTOU INNOVATIVE TECHNOLOGY TRANSFER CO.,LTD. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |