CN111861046B - 基于大数据和深度学习的专利价值智能评估*** - Google Patents

基于大数据和深度学习的专利价值智能评估*** Download PDF

Info

Publication number
CN111861046B
CN111861046B CN201910265161.6A CN201910265161A CN111861046B CN 111861046 B CN111861046 B CN 111861046B CN 201910265161 A CN201910265161 A CN 201910265161A CN 111861046 B CN111861046 B CN 111861046B
Authority
CN
China
Prior art keywords
text
evaluation
word vector
price
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910265161.6A
Other languages
English (en)
Other versions
CN111861046A (zh
Inventor
丁晓蔚
戴�峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910265161.6A priority Critical patent/CN111861046B/zh
Publication of CN111861046A publication Critical patent/CN111861046A/zh
Application granted granted Critical
Publication of CN111861046B publication Critical patent/CN111861046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出基于大数据和深度学***均词向量;专利价格评估模块将平均词向量转化为文本矩阵,并输入训练好的专利价格评估模型,输出专利价格并发送给用户端。本发明可以在不依赖专家经验的情况下,准确的评估专利的价格,评估速度快,准确度高。

Description

基于大数据和深度学习的专利价值智能评估***
技术领域
本发明涉及价值评估领域,尤其是一种基于大数据和深度学习的专利价值智能评估***。
背景技术
专利的价格评估对于专利的转让、质押、融资等具有重要的意义,目前专利价格的评估基本采用专家评估的方式,这种评估方式很大程度上依赖于专家经验,而这种依赖性给专利价格的评估带来了很大的风险。如果专家经验不可靠或者估计错误,将会给专利的转让等其他交易带来很大的成本。而现有技术中缺乏***的、面向大众的专利价值评价***。
发明内容
发明目的:为填补现有技术的空白,本发明提出一种基于大数据和深度学习的专利价值智能评估***,该***可以在不依赖专家经验的情况下,准确的评估专利的价格。
技术方案:为实现上述目的,本发明提出以下技术方案:
基于大数据和深度学习的专利价值智能评估***,包括用户端、专利评估端和专利数据库服务器,专利评估端分别与专利数据库服务器和用户端交互,专利评估端从用户端或专利数据库服务器获取初始文本数据;
专利评估端包括文本向量化模块和专利价格评估模块;其中,
文本向量化模块对获取的初始文本数据进行分词处理,提取出的所有词互不相同,然后将每个词转换为词向量,并计算整个初始文本数据的平均词向量;
专利价格评估模块对平均词向量进行编码,将平均词向量中的每一个元素映射为一个唯一的正整数编码,然后设置一个r×t维的文本矩阵,将各元素的编码按照相应元素在平均词向量中的排序逐一填写在文本矩阵中,填写的顺序为从文本矩阵的第一行首位开始逐行填写,若平均词向量的编码数量大于r×t,则将多出部分删除,若平均词向量的编码数量不足r×t,则将文本矩阵中空出的位置补0;
专利价格评估模块将文本矩阵输入预先训练好的专利价格评估模型,输出初始文本数据对应的专利价格,并将得到的专利价格反馈给用户端;
所述专利价格评估模型为深度神经网络模型,该模型的训练步骤为:
a.获取已知专利价格的专利文本,通过文本向量化模型提取专利文本的平均词向量;
b.通过专利价格评估模块将提取出的平均词向量转化为文本矩阵,在进行训练前,为每个文本矩阵添加专利价格标签,然后以文本矩阵及其相应的价格标签作为训练数据输入深度神经网络模型反复训练,直至满足预设的停止条件,此时深度神经网络模型训练完毕。
进一步的,专利评估端获取待评估专利的方式为:
用户通过用户端向专利评估端上传待评估的专利文本;或
用户通过用户端向专利评估端上传待评估的专利文本的检索信息,专利评估端根据检索信息从专利数据库服务器检索到相应专利文本并下载。
进一步的,文本向量化模块通过预先训练好的文本词向量模型将提取出的词转化为词向量,文本词向量模型的训练方法为:
将作为训练样本的每个词表示成one-hot形式,然后选定一个词向量的维度X,将表示为one-hot形式的训练样本输入神经网络中,经过训练输出指定维度的词向量。
进一步的,所述平均词向量的计算方法为:
vaverage=(v1+v2+…+vn)/n
v1至vn为初始文本数据经过分词处理后提取出的词的词向量,n为提取出的词的总数。
有益效果:与现有技术相比,本发明具有以下优势:
本发明提供了一种用于专利价格评估的工具,这是一种面向大众的专利价值智能评估***,任何人都可以通过用户端访问专利评估端,对自己所持有的或者别人的专利进行价值评估。整个评估过程不依赖于专家经验,评估速度快,且准确度高。
附图说明
图1为本发明的***结构图;
图2为本发明的工作流程图;
图3为CNN卷积神经网络的拓扑图;
图4为ResNet的拓扑图;
图5为ResNet的残差学习单元拓扑图。
具体实施方式
下面结合附图和具体实施例对本发明作更进一步的说明。
本发明提出了一种基于大数据和深度学习的专利价值智能评估***,该***的架构如图1所示,包括:用户端、专利评估端和专利数据库服务器,专利评估端分别与专利数据库服务器和用户端交互,专利评估端从用户端或专利数据库服务器获取初始文本数据。
上述***的工作流程如图2所示:专利评估端包括文本向量化模块和专利价格评估模块,文本向量化模块对获取的初始文本数据进行分词处理,提取出的所有词互不相同,然后将每个词转换为词向量,并计算整个初始文本数据的平均词向量;专利价格评估模块对平均词向量进行编码,将平均词向量中的每一个元素映射为一个唯一的正整数编码,然后设置一个N×N维的文本矩阵,将编码后的元素按照其在平均词向量中的排序逐一填写在文本矩阵中;专利价格评估模块将文本矩阵输入预先训练好的专利价格评估模型,输出初始文本数据对应的专利价格,并将得到的专利价格反馈给用户端。
上述方案中,专利价格评估模型为深度神经网络模型,该模型的训练步骤为:
a.获取已知专利价格的专利文本,通过文本向量化模型提取专利文本的平均词向量;
b.通过专利价格评估模块将提取出的平均词向量转化为文本矩阵,在进行训练前,为每个文本矩阵添加专利价格标签,然后以文本矩阵及其相应的价格标签作为训练数据输入深度神经网络模型反复训练,直至满足预设的停止条件,此时深度神经网络模型训练完毕。
上述方案中,专利评估端获取待评估专利的方式为:
用户通过用户端向专利评估端上传待评估的专利文本;或
用户通过用户端向专利评估端上传待评估的专利文本的检索信息,专利评估端根据检索信息从专利数据库服务器检索到相应专利文本并下载。
上述方案中,文本向量化模块通过预先训练好的文本词向量模型将提取出的词转化为词向量,文本词向量模型的训练方法为:
将作为训练样本的每个词表示成one-hot形式,然后选定一个词向量的维度X(例如64),将表示为one-hot形式的训练样本输入神经网络中,经过训练输出指定维度的词向量。
下面通过一个具体的实施例对本发明的原理进行进一步阐述。
设文本向量化模块分词处理后提取的词共n个,分别记为w1、w2……wn,则初始文本数据可以表示为:
Wo=w1+w2+…+wn
用文本词向量模型将每个词转化为词向量,记得到的n个词向量分别为v1、v2……vn,则有:
f(Wo)=∑f(wk)=v1+v2+…+vn
其中,f( )表示文本词向量模型的转化函数,wk表示第k个词;
对词向量做向量加法,再把得到的向量的每个维度都除以词的数量,就得到平均词向量:
vaverage=(v1+v2+…+vn)/n
专利价格评估模块对平均词向量进行编码,将平均词向量中的每一个元素映射为一个唯一的正整数编码,设映射函数为g(x),可根据需求设置,g(x)的表达式为:
g(Wo)=∑g(wk)=u1+u2+…+un
u1至un分别为平均词向量中的每一个元素的编码。
然后设置一个r×t维(例100*100)的文本矩阵,将各元素的编码按照相应元素在平均词向量中的排序逐一填写在文本矩阵中,填写的顺序为从文本矩阵的第一行首位开始逐行填写,若平均词向量的编码数量大于r×t,则将多出部分删除,若平均词向量的编码数量不足r×t,则将文本矩阵中空出的位置补0;填好的文本矩阵m为:
专利价格评估模块将文本矩阵输入预先训练好的专利价格评估模型,输出初始文本数据对应的专利价格,并将得到的专利价格反馈给用户端;
将平均词向量和价格区间作为特征和标签放入一个深度神经网络进行训练,得到多个回归模型,深度神经网络如图2所示,得到的回归模型为:
V=conv2(W,m,valid)+b
price=Φ(V)
其中,conv2表示卷积公式,其卷积的展开式为:
其中,W表示输入,K表示卷积核,m*n为卷积核的大小。
具体的卷积过程如下:类比为图像,我们的文本矩阵是单通道的,假定我们的卷积核是一个4维张量K,它的每一个元素是Ki,j,k,l,表示输出中处于通道i的一个单元和输入中处于通道j中的一个单元的连接强度,并且在输出单元和输入单元之间有k行l列的偏置。假定输入由观测数据W组成,它的每一个元素是Wi,j,k,表示处于通道i中第j行第k列的值。假定我们的输出Z和输入W具有相同的形式,如果输出Z是通过对K和W进行卷积而不设计翻转K得到的,那么,有:
这里对所有的l,m和n进行求和是对所有(在求和式中)有效的张量索引的值进行求和。
深度神经网络训练的过程如下:
假设我们想要训练这样一个卷积网络,它包含步幅为s的步幅卷积,该卷积的核为K,作用于单通道的矩阵W,定义为c(K,W,s),如上式。假设我们想要最小化某个损失函数J(W,K)。在前向传播过程中,我们需要用c本身来输出Z,然后Z传递到网络的其余部分并且被用来计算损失函数J。在反向传播过程中,我们会得到一个张量G,G满足:
为了训练网络,我们需要对核中的权重求导,为了实现这个目的,我们在本实施例中使用一个函数:
如果这一层不是网络的底层,我们需要对W求梯度来使得误差进一步反向传播,我们可以使用如下的函数:
深度神经网络训练结束后,即可用来评价新的专利文本,通过文本向量化模型提取新的专利文本的平均词向量;然后通过专利价格评估模块将提取出的平均词向量转化为文本矩阵,将文本矩阵输入深度神经网络,即可得到专利价格评估结果。
在上述实施例中,深度神经网络采用CNN卷积神经网络,CNN卷积神经网络拓扑图如图3所示,本实施例中采用的CNN卷积神经网络包括但不限于LeNet-5、ResNet,ResNet的结构如图4所示,其中的残差学习单元如图5所示,
残差学习单元执行的计算过程为:
xl+1=ReLU(yl)
其中,xl和xl+1分别表示第l个残差单元的输入和输出,每个残差单元包含多层结构,F是残差函数,表示学习到的残差,表示恒等映射,即/>基于这个式子,求得从浅层l到深层L的学习特征为:
利用链式规则,可以求得反向过程的梯度:
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.基于大数据和深度学习的专利价值智能评估***,其特征在于,包括用户端、专利评估端和专利数据库服务器,专利评估端分别与专利数据库服务器和用户端交互,专利评估端从用户端或专利数据库服务器获取初始文本数据;
专利评估端包括文本向量化模块和专利价格评估模块;其中,
文本向量化模块对获取的初始文本数据进行分词处理,提取出的所有词互不相同,然后将每个词转换为词向量,并计算整个初始文本数据的平均词向量;
专利价格评估模块对平均词向量进行编码,将平均词向量中的每一个元素映射为一个唯一的正整数编码,然后设置一个r×t维的文本矩阵,将各元素的编码按照相应元素在平均词向量中的排序逐一填写在文本矩阵中,填写的顺序为从文本矩阵的第一行首位开始逐行填写,若平均词向量的编码数量大于r×t,则将多出部分删除,若平均词向量的编码数量不足r×t,则将文本矩阵中空出的位置补0;
专利价格评估模块将文本矩阵输入预先训练好的专利价格评估模型,输出初始文本数据对应的专利价格,并将得到的专利价格反馈给用户端;
所述专利价格评估模型为深度神经网络模型,该模型的训练步骤为:
a.获取已知专利价格的专利文本,通过文本向量化模型提取专利文本的平均词向量;
b.通过专利价格评估模块将提取出的平均词向量转化为文本矩阵,在进行训练前,为每个文本矩阵添加专利价格标签,然后以文本矩阵及其相应的价格标签作为训练数据输入深度神经网络模型反复训练,直至满足预设的停止条件,此时深度神经网络模型训练完毕。
2.根据权利要求1所述的基于大数据和深度学习的专利价值智能评估***,其特征在于,专利评估端获取待评估专利的方式为:
用户通过用户端向专利评估端上传待评估的专利文本;或
用户通过用户端向专利评估端上传待评估的专利文本的检索信息,专利评估端根据检索信息从专利数据库服务器检索到相应专利文本并下载。
3.根据权利要求2所述的基于大数据和深度学习的专利价值智能评估***,其特征在于,文本向量化模块通过预先训练好的文本词向量模型将提取出的词转化为词向量,文本词向量模型的训练方法为:
将作为训练样本的每个词表示成one-hot形式,然后选定一个词向量的维度X,将表示为one-hot形式的训练样本输入神经网络中,经过训练输出指定维度的词向量。
4.根据权利要求3所述的基于大数据和深度学***均词向量的计算方法为:
vaverage=(v1+v2+…+vn)/n
v1至vn为初始文本数据经过分词处理后提取出的词的词向量,n为提取出的词的总数。
CN201910265161.6A 2019-04-02 2019-04-02 基于大数据和深度学习的专利价值智能评估*** Active CN111861046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910265161.6A CN111861046B (zh) 2019-04-02 2019-04-02 基于大数据和深度学习的专利价值智能评估***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910265161.6A CN111861046B (zh) 2019-04-02 2019-04-02 基于大数据和深度学习的专利价值智能评估***

Publications (2)

Publication Number Publication Date
CN111861046A CN111861046A (zh) 2020-10-30
CN111861046B true CN111861046B (zh) 2023-12-29

Family

ID=72951094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910265161.6A Active CN111861046B (zh) 2019-04-02 2019-04-02 基于大数据和深度学习的专利价值智能评估***

Country Status (1)

Country Link
CN (1) CN111861046B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733549B (zh) * 2020-12-31 2024-03-01 厦门智融合科技有限公司 一种基于多重语义融合的专利价值信息分析方法、装置
CN116092170A (zh) * 2023-04-06 2023-05-09 广东聚智诚科技有限公司 一种基于大数据技术的专利价值分析***
CN116882845A (zh) * 2023-09-05 2023-10-13 北京中电普华信息技术有限公司 科技成果评估信息***
CN117710161A (zh) * 2024-01-05 2024-03-15 广东聚智诚科技有限公司 基于大数据技术的专利价值分析***、方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN108416535A (zh) * 2018-03-27 2018-08-17 中国科学技术大学 基于深度学习的专利价值评估的方法
CN109241530A (zh) * 2018-08-29 2019-01-18 昆明理工大学 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN109492103A (zh) * 2018-11-09 2019-03-19 北京三快在线科技有限公司 标签信息获取方法、装置、电子设备及计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN108416535A (zh) * 2018-03-27 2018-08-17 中国科学技术大学 基于深度学习的专利价值评估的方法
CN109241530A (zh) * 2018-08-29 2019-01-18 昆明理工大学 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN109492103A (zh) * 2018-11-09 2019-03-19 北京三快在线科技有限公司 标签信息获取方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
CN111861046A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111861046B (zh) 基于大数据和深度学习的专利价值智能评估***
CN109492099B (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
CN108171198B (zh) 基于非对称多层lstm的连续手语视频自动翻译方法
CN113641820B (zh) 基于图卷积神经网络的视角级文本情感分类方法及***
CN113705597A (zh) 一种图像处理方法、装置、计算机设备以及可读存储介质
CN109817276A (zh) 一种基于深度神经网络的蛋白质二级结构预测方法
CN114493755B (zh) 一种融合时序信息的自注意力序列推荐方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN112906828A (zh) 一种基于时域编码和脉冲神经网络的图像分类方法
CN111210382B (zh) 图像处理方法、装置、计算机设备和存储介质
CN113536925B (zh) 一种基于引导注意力机制的人群计数方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及***
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN112819050B (zh) 知识蒸馏和图像处理方法、装置、电子设备和存储介质
CN114491039B (zh) 基于梯度改进的元学习少样本文本分类方法
CN113269224A (zh) 一种场景图像分类方法、***及存储介质
CN115146580A (zh) 基于特征选择和深度学习的集成电路路径延时预测方法
CN112100486A (zh) 一种基于图模型的深度学习推荐***及其方法
CN115830596A (zh) 基于融合金字塔注意力的遥感图像语义分割方法
CN117636183A (zh) 一种基于自监督预训练的小样本遥感图像分类方法
CN110210562B (zh) 基于深度网络和稀疏Fisher矢量的图像分类方法
CN117034060A (zh) 基于ae-rcnn的洪水分级智能预报方法
CN115359292A (zh) 基于特征自适应融合的立定跳远阶段分类方法
CN108846341A (zh) 一种基于神经网络的遥感图像湖冰分类识别方法
CN114565625A (zh) 一种基于全局特征的矿物图像分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant