CN115641009A - 基于专利异构信息网络挖掘竞争者的方法及装置 - Google Patents
基于专利异构信息网络挖掘竞争者的方法及装置 Download PDFInfo
- Publication number
- CN115641009A CN115641009A CN202211421320.5A CN202211421320A CN115641009A CN 115641009 A CN115641009 A CN 115641009A CN 202211421320 A CN202211421320 A CN 202211421320A CN 115641009 A CN115641009 A CN 115641009A
- Authority
- CN
- China
- Prior art keywords
- company
- nodes
- node
- semantic
- information network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 43
- 238000005065 mining Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000005295 random walk Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000002860 competitive effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出了一种基于专利异构信息网络挖掘竞争者的方法及装置,涉及网络表示学习领域,包括:获取竞争对真值,根据竞争对真值从专利数据库中抽取并清洗专利数据以构建专利数据集;根据专利数据集确定专利语义相似度,根据专利语义相似度构建专利语义连边,根据专利语义连边构建专利异构信息网络;通过图嵌入获取专利异构信息网络内公司节点以及公司节点所处的结构特征;筛选公司节点,通过注意力机制综合公司节点的向量表示,得到公司节点的嵌入矩阵;根据嵌入矩阵计算公司节点间的余弦相似度,其中,将余弦相似度最高的结果作为目标公司的候选竞争者。本申请通过专利数据构建网络,引入图嵌入方法与注意力机制用于竞争者挖掘,提高挖掘效率。
Description
技术领域
本申请涉及网络表示学习技术领域,尤其涉及基于专利异构信息网络挖掘竞争者的方法及装置。
背景技术
专利作为衡量科学技术发展水平的重要标志之一,它是科技竞争和经济竞争的焦点与核心。专利竞争者挖掘是近年来的新兴的研究领域,旨在帮助工业、商业、法律和决策团体发现重要竞争关系,说明领先的商业趋势,从而进一步激发新颖的工业解决方案并做出重要的投资决策。在如今的知识经济时代,知识产权竞争是当今世界上最不可避免的力量之一。因此,基于专利数据为目标企业挖掘竞争者是十分有意义的。
目前的竞争者挖掘方法大多基于文本数据,忽略了结构信息。少量的研究工作将结构信息与文本信息相结合来实现竞争者挖掘,但这类方法不能很好地考虑专利数据的异质性,难以有效地挖掘公司间的潜在结构特征。目前虽有工作使用已有的图嵌入方法来挖掘专利数据中企业间的竞争关系,但至今没有一项工作针对专利数据提出针对性的竞争者挖掘方案。借助现有的竞争者挖掘技术,竞争者挖掘效果往往不如预期。
发明内容
针对上述问题,提出了一种基于专利异构信息网络挖掘竞争者的方法及装置,通过根据专利数据构建网络,并且使用不同图嵌入方法学习网络中节点的丰富结构与语义信息,引入注意力机制来融合目标节点表示以有效用于竞争者挖掘,从而提高竞争者挖掘性能。
本申请第一方面提出了一种基于专利异构信息网络挖掘竞争者的方法,包括:
获取竞争对真值,根据所述竞争对真值从专利数据库中抽取并清洗专利数据以构建专利数据集;
根据所述专利数据集确定专利语义相似度,根据所述专利语义相似度构建专利语义连边,根据所述专利语义连边构建专利异构信息网络;
通过图嵌入方法获取所述专利异构信息网络内公司节点以及所述公司节点所处的结构特征;
筛选所述公司节点,通过注意力机制综合所述公司节点的向量表示,得到所述公司节点的嵌入矩阵;
根据所述嵌入矩阵计算所述公司节点间的余弦相似度,其中,将余弦相似度最高的结果作为目标公司的候选竞争者。
可选的,所述从专利数据库中抽取并清洗专利数据以构建专利数据集,包括:
使用爬虫技术获取所述竞争对真值,对所述专利数据进行去重并过滤空值及无效数据。
可选的,所述根据所述专利数据集确定专利语义相似度,根据所述专利语义相似度构建专利语义连边,包括:
对于文档内容集合T={tc1,tc2,…tc|D|},根据词频-逆文本频率指数TF-IDF计算单词w在文档内容tci中的权重,参照如下公式:
根据所述权重,获取所述文档内容tci的特征向量,公式如下:
计算T中专利tci和tcj文本内容的相似度,所述专利语义相似度排名根据以下公式计算:
pip=Topn(Sim1(pi,pj)),
其中,tsim(.)为计算相似度的函数,ψ(pi,pj)为二进制指标,λ为专利tci和tcj的相关程度,Top n(.)用于获取前n个最高相似度专利列表;
根据所述相似度排名构建专利语义连边PL={p1p,p2p,...,p|D|p}。
可选的,所述根据所述专利语义连边构建专利异构信息网络,包括:
对于给定的专利异构信息网络G′=(V,E,H,ξ,ψ,μ),其中,V,E,H分别表示节点、边、权重集合,ξ是对象类型映射函数,ψ是关系类型映射函数,μ是权重类型映射函数,由此节点间关系的权重定义如下:
其中,u为权重衰减值,rankindex为所述专利语义相似度排名的索引,若所述节点间的关系是专利语义连边,则所述关系的边权重为g-u×rankindex。
可选的,所述通过图嵌入方法获取所述专利异构信息网络内公司节点以及所述公司节点所处的结构特征,包括:
在给定的专利异构信息网络G′=(V,E,H,ξ,ψ,μ)中选定一条元路径P:A1→A2→…→Al+1,所述元路径游走按照遵从以下分布:
可选的,所述公司节点所处的结构特征满足共现概率最大化公式,所述公式表示为:
其中,vi为当前节点,vj为上下文节点。
可选的,所述筛选所述公司节点,通过注意力机制综合所述公司节点的向量表示,得到所述公司节点的嵌入矩阵,包括:
ωi=qT·tanh(W·(ei)T+b),
其中W为权重矩阵,b为偏置值,ei为嵌入表示;
使用激活函数为所述元路径Z中节点i对应的注意力值ωi进行归一化处理,公式化如下:
其中,αi为i节点的嵌入重要性值;
ZA=αC·ZC+αC′·ZC′+αG·ZG,
其中,αC为元路径ZC中所有节点的学习权重矩阵,αC′为元路径ZC′中所有节点的学习权重矩阵,αG为元路径αG中所有节点的学习权重矩阵。
可选的,在所述得到所述公司节点的嵌入矩阵中,损失函数为:
其中,E+为正节点对,E为总体节点对,t是超参数。
可选的,以如下公式根据所述嵌入矩阵计算所述公司节点间的余弦相似度,所述公式为:
其中,ci,cj为所述嵌入矩阵中的公司节点。
本申请第二方面提出一种基于专利异构信息网络挖掘竞争者的装置,包括:
获取模块,获取竞争对真值,根据所述竞争对真值从专利数据库中抽取并清洗专利数据以构建专利数据集;
构建模块,根据所述专利数据集确定专利语义相似度,根据所述专利语义相似度构建专利语义连边,根据所述专利语义连边构建专利异构信息网络;
嵌入模块,通过图嵌入方法获取所述专利异构信息网络内公司节点以及所述公司节点所处的结构特征;
优化模块,筛选所述公司节点,通过注意力机制综合所述公司节点的向量表示,得到所述公司节点的嵌入矩阵;
竞争者挖掘模块,根据所述嵌入矩阵计算所述公司节点间的余弦相似度,其中,将余弦相似度最高的结果作为目标公司的候选竞争者。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过根据专利数据构建网络,在语义连边上构建了以专利-公司为中心的的专利异构信息网络用于竞争者的挖掘,并且使用不同图嵌入方法学习网络中节点的丰富结构与语义信息,引入注意力机制来融合目标节点表示以有效用于竞争者挖掘,从而提高竞争者挖掘性能,提高有效性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请示例性实施例示出的一种基于专利异构信息网络挖掘竞争者方法的流程图;
图2是根据本申请示例性实施例示出的一种基于专利异构信息网络挖掘竞争者装置的框图;
图3是一种电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
图1是根据本申请示例性实施例示出的一种基于专利异构信息网络挖掘竞争者的方法的流程图,包括:
步骤101,获取竞争对真值,根据竞争对真值从专利数据库中抽取并清洗专利数据以构建专利数据集。
本申请实施例中,使用爬虫技术获取竞争对真值,且专利数据库包括中英文数据库。
对于中文数据集,从中国裁判文书网中收集涉及专利侵权案件的公司名称信息,涉及专利侵权纠纷案件的公司之间存在竞争关系,例如:公司A与公司B产生侵害发明专利权纠纷,则公司A与公司B存在竞争关系,为一个竞争对(竞争者列表的一行)将公司名称信息整理成竞争者列表。
一种可能的实施例中,收集2021年07月至2017年01月的专利侵权案件标题,以2020年01月为时间分界线,将竞争者列表划分为两个子列表。
对于英文数据集,例如根据Yahoo!Finance网站,收集其所有行业的公司名称列表并以此作为网站查询列表来获取目标公司的竞争者列表,根据该竞争者列表从专利数据库中抽取了近十万条专利,为保证数据的均衡性以及实验结果,将公司所拥有的专利数量控制在20条左右后形成Uspto-Yahoo数据集。
其中,数据集的清洗包括根据竞争对真值列表从专利数据库中抽取数据,若有其中一家公司或两家公司均未能在专利数据库中搜寻到其专利数据,便该条数据过滤掉。之后对专利数据进行去重,过滤空值及无效数据。
一种可能的实施例中,“中兴通讯股份有限公司”的竞争对手为“美商内数位科技公司”。
步骤102,根据专利数据集确定专利语义相似度,根据专利语义相似度构建专利语义连边,根据专利语义连边构建专利异构信息网络。
本申请实施例中,具体地说从专利数据集取得专利标题、摘要、权利要求说明书以确定专利语义相似度,同时将公司、专利、发明人、领域之间关联起来并构建以公司、专利为中心的专利异构信息网络。
具体的说,对于文档内容集合T={tc1,tc2,…tc|D|},根据词频-逆文本频率指数TF-IDF计算单词w在文档内容tci中的权重,参照如下公式:
根据权重,获取文档内容tci的特征向量,公式如下:
计算T中专利tci和tcj文本内容的相似度,专利语义相似度排名根据以下公式计算:
pip=Topn(Sim1(pi,pj)),
其中,tsim(.)为计算相似度的函数,ψ(pi,pj)为二进制指标,λ为专利tci和tcj的相关程度,Topn(.)用于获取前n个最高相似度专利列表。
当两篇专利的分类码相同时ψ(pi,pj)=1,否则ψ(pi,pj)=0,λ∈[0,1]表示公式中两项的相关程度。
一种可能的实施例中,设置λ=0.2。
根据相似度排名构建专利语义连边PL={p1p,p2p,...,p|D|p}。
在获取专利语义连边后,构建以公司、专利为中心的专利异构信息网络,下面具体说明:
对于给定的专利异构信息网络G′=(V,E,H,ξ,ψ,μ),其中,V,E,H分别表示节点、边、权重集合,ξ是对象类型映射函数,ψ是关系类型映射函数,μ是权重类型映射函数,由此公司节点间关系的权重定义如下:
其中,u为权重衰减值,rankindex为专利语义相似度排名的索引,若节点间的关系是专利语义连边,则关系的边权重为g-u×rankindex。
一种可能的实施例中,设置g=0.1,u=g/n。
步骤103,通过图嵌入方法获取专利异构信息网络内公司节点以及公司节点所处的结构特征。
本申请实施例中,在给定的专利异构信息网络G′=(V,E,H,ξ,ψ,μ)中选定一条元路径P:A1→A2→…→Al+1,元路径游走按照遵从以下分布:
本申请实施例中,专利节点用符号P表示,公司节点用符号C表示,发明人节点用符号I表示,领域节点用符号F表示,给定元路径CPC和CPIPC,例如从Apple公司节点开始生成两个样本节点序列:(1)Applecompany→P1patent→Qualcommcompany和(2)AppleCompany→P2patent→Maryinventor→P3patent→Huaweicompany同样,给定元路径CFC,可以生成另一个节点序列:AppleCompany→G06KCPC→Huaweicompany。
其中,公司节点所处的结构特征满足共现概率最大化公式,公式表示为:
其中,vi为当前节点,vj为上下文节点。
一种可能的实施例中,设置网络嵌入随机游走路径个数num=10,游走步长l=10,窗口大小w=5,负采样n=5。
步骤104,筛选公司节点,通过注意力机制综合公司节点的向量表示,得到公司节点的嵌入矩阵。
ωi=qT·tanh(W·(ei)T+b),
其中W为权重矩阵,b为偏置值,ei为嵌入表示;
使用激活函数为元路径Z中节点i对应的注意力值ωi进行归一化处理,公式化如下:
ZA=αC·ZC+αC′·ZC′+αG·ZG,
其中,αC为元路径ZC中所有节点的学习权重矩阵,αC′为元路径ZC′中所有节点的学习权重矩阵,αG为元路径αG中所有节点的学习权重矩阵。
另外,在得到公司节点的嵌入矩阵中,损失函数为:
其中,E+为正节点对,E为总体节点对,t是超参数。
一种可能的实施例中,设置语义链接n=3,嵌入维度d=400,学习率0.0001,设置最大迭代次数epoch=110。
步骤105,根据嵌入矩阵计算公司节点间的余弦相似度,其中,将余弦相似度最高的结果作为目标公司的候选竞争者。
本申请实施例中,以如下公式根据嵌入矩阵计算公司节点间的余弦相似度,公式为:
其中,ci,cj为嵌入矩阵中的公司节点。
具体的,为目标公司推荐k个最可能的竞争者,k是指定推荐竞争者个数的参数。
一种可能的实施例中,设置k=3,10,20,30。
本申请实施例通过根据专利数据构建网络,在语义连边上构建了以专利-公司为中心的的专利异构信息网络用于竞争者的挖掘,并且使用不同图嵌入方法学习网络中节点的丰富结构与语义信息,引入注意力机制来融合目标节点表示以有效用于竞争者挖掘,从而提高竞争者挖掘性能,提高有效性。
另外,本申请的专利数据集为中英文数据集,可适用于不同语言场景。
图2是根据本申请示例性实施例示出的一种基于专利异构信息网络挖掘竞争者的装置200的流程图,包括,获取模块210、构建模块220、嵌入模块230、优化模块240和竞争者挖掘模块250。
获取模块210,获取竞争对真值,根据竞争对真值从专利数据库中抽取并清洗专利数据以构建专利数据集;
构建模块220,根据专利数据集确定专利语义相似度,根据专利语义相似度构建专利语义连边,根据专利语义连边构建专利异构信息网络;
嵌入模块230,通过图嵌入方法获取专利异构信息网络内公司节点以及公司节点所处的结构特征;
优化模块240,筛选公司节点,通过注意力机制综合公司节点的向量表示,得到公司节点的嵌入矩阵;
竞争者挖掘模块250,根据嵌入矩阵计算公司节点间的余弦相似度,其中,将余弦相似度最高的结果作为目标公司的候选竞争者。
关于上述实施例中的方法,其中各个方法执行操作的具体方式已经在有关该***的实施例中进行了详细描述,此处将不做详细阐述说明。
图3示出了可以用来实施本公开的实施例的示例电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图3所示,设备300包括计算单元301,其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序,来执行各种适当的动作和处理。在RAM 303中,还可存储设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
设备300中的多个部件连接至I/O接口305,包括:输入单元306,例如键盘、鼠标等;输出单元307,例如各种类型的显示器、扬声器等;存储单元308,例如磁盘、光盘等;以及通信单元309,例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理,例如语音指令响应方法。例如,在一些实施例中,语音指令响应方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到RAM 303并由计算单元301执行时,可以执行上文描述的语音指令响应方法的一个或多个步骤。备选地,在其他实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音指令响应方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (10)
1.一种基于专利异构信息网络挖掘竞争者的方法,其特征在于,包括:
获取竞争对真值,根据所述竞争对真值从专利数据库中抽取并清洗专利数据以构建专利数据集;
根据所述专利数据集确定专利语义相似度,根据所述专利语义相似度构建专利语义连边,根据所述专利语义连边构建专利异构信息网络;
通过图嵌入方法获取所述专利异构信息网络内公司节点以及所述公司节点所处的结构特征;
筛选所述公司节点,通过注意力机制综合所述公司节点的向量表示,得到所述公司节点的嵌入矩阵;
根据所述嵌入矩阵计算所述公司节点间的余弦相似度,其中,将余弦相似度最高的结果作为目标公司的候选竞争者。
2.根据权利要求1所述的方法,其特征在于,所述从专利数据库中抽取并清洗专利数据以构建专利数据集,包括:
使用爬虫技术获取所述竞争对真值,对所述专利数据进行去重并过滤空值及无效数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述专利数据集确定专利语义相似度,根据所述专利语义相似度构建专利语义连边,包括:
对于文档内容集合T={tc1,tc2,…tc|D|},根据词频-逆文本频率指数TF-IDF计算单词w在文档内容tci中的权重,参照如下公式:
根据所述权重,获取所述文档内容tci的特征向量,公式如下:
计算T中专利tci和tcj文本内容的相似度,所述专利语义相似度排名根据以下公式计算:
pip=Topn(Sim1(pi,pj)),
其中,tsim(.)为计算相似度的函数,ψ(pi,pj)为二进制指标,λ为专利tci和tcj的相关程度,Topn(.)用于获取前n个最高相似度专利列表;
根据所述相似度排名构建专利语义连边PL={p1p,p2p,...,p|D|p}。
7.根据权利要求1所述的方法,其特征在于,所述筛选所述公司节点,通过注意力机制综合所述公司节点的向量表示,得到所述公司节点的嵌入矩阵,包括:
ωi=qT·tanh(W·ei)T+b),
其中W为权重矩阵,b为偏置值,ei为嵌入表示;
使用激活函数为所述元路径Z中节点i对应的注意力值ωi进行归一化处理,公式化如下:
其中,αi为i节点的嵌入重要性值;
ZA=αC·ZC+αC′·ZC′+αG·ZG,
其中,αC为元路径ZC中所有节点的学习权重矩阵,αC′为元路径ZC′中所有节点的学习权重矩阵,αG为元路径αG中所有节点的学习权重矩阵。
10.一种基于专利异构信息网络挖掘竞争者的装置,其特征在于,包括:
获取模块,获取竞争对真值,根据所述竞争对真值从专利数据库中抽取并清洗专利数据以构建专利数据集;
构建模块,根据所述专利数据集确定专利语义相似度,根据所述专利语义相似度构建专利语义连边,根据所述专利语义连边构建专利异构信息网络;
嵌入模块,通过图嵌入方法获取所述专利异构信息网络内公司节点以及所述公司节点所处的结构特征;
优化模块,筛选所述公司节点,通过注意力机制综合所述公司节点的向量表示,得到所述公司节点的嵌入矩阵;
竞争者挖掘模块,根据所述嵌入矩阵计算所述公司节点间的余弦相似度,其中,将余弦相似度最高的结果作为目标公司的候选竞争者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211421320.5A CN115641009B (zh) | 2022-11-14 | 2022-11-14 | 基于专利异构信息网络挖掘竞争者的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211421320.5A CN115641009B (zh) | 2022-11-14 | 2022-11-14 | 基于专利异构信息网络挖掘竞争者的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115641009A true CN115641009A (zh) | 2023-01-24 |
CN115641009B CN115641009B (zh) | 2023-05-05 |
Family
ID=84948116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211421320.5A Active CN115641009B (zh) | 2022-11-14 | 2022-11-14 | 基于专利异构信息网络挖掘竞争者的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115641009B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112735A (zh) * | 2023-10-19 | 2023-11-24 | 中汽信息科技(天津)有限公司 | 一种专利数据库的构建方法和电子设备 |
CN117807275A (zh) * | 2023-12-29 | 2024-04-02 | 江南大学 | 基于关系挖掘的异构图嵌入方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040015481A1 (en) * | 2002-05-23 | 2004-01-22 | Kenneth Zinda | Patent data mining |
CN110175224A (zh) * | 2019-06-03 | 2019-08-27 | 安徽大学 | 基于语义链接异构信息网络嵌入的专利推荐方法及装置 |
CN111831913A (zh) * | 2020-07-17 | 2020-10-27 | 深圳龙图腾创新设计有限公司 | 一种潜在竞争者信息推荐方法、装置、设备和存储介质 |
CN112182183A (zh) * | 2020-09-28 | 2021-01-05 | 厦门理工学院 | 一种专利有害效应知识挖掘方法、装置、设备及存储介质 |
CN112182424A (zh) * | 2020-11-11 | 2021-01-05 | 重庆邮电大学 | 一种基于异构信息和同构信息网络融合的社交推荐方法 |
CN113190754A (zh) * | 2021-05-11 | 2021-07-30 | 四川大学 | 一种基于异构信息网络表示学习的推荐方法 |
CN113779264A (zh) * | 2021-08-29 | 2021-12-10 | 北京工业大学 | 基于专利供需知识图谱的交易推荐方法 |
CN113836398A (zh) * | 2021-08-29 | 2021-12-24 | 北京工业大学 | 基于属性异构网络表示学习的专利交易推荐方法 |
-
2022
- 2022-11-14 CN CN202211421320.5A patent/CN115641009B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040015481A1 (en) * | 2002-05-23 | 2004-01-22 | Kenneth Zinda | Patent data mining |
CN110175224A (zh) * | 2019-06-03 | 2019-08-27 | 安徽大学 | 基于语义链接异构信息网络嵌入的专利推荐方法及装置 |
CN111831913A (zh) * | 2020-07-17 | 2020-10-27 | 深圳龙图腾创新设计有限公司 | 一种潜在竞争者信息推荐方法、装置、设备和存储介质 |
CN112182183A (zh) * | 2020-09-28 | 2021-01-05 | 厦门理工学院 | 一种专利有害效应知识挖掘方法、装置、设备及存储介质 |
CN112182424A (zh) * | 2020-11-11 | 2021-01-05 | 重庆邮电大学 | 一种基于异构信息和同构信息网络融合的社交推荐方法 |
CN113190754A (zh) * | 2021-05-11 | 2021-07-30 | 四川大学 | 一种基于异构信息网络表示学习的推荐方法 |
CN113779264A (zh) * | 2021-08-29 | 2021-12-10 | 北京工业大学 | 基于专利供需知识图谱的交易推荐方法 |
CN113836398A (zh) * | 2021-08-29 | 2021-12-24 | 北京工业大学 | 基于属性异构网络表示学习的专利交易推荐方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112735A (zh) * | 2023-10-19 | 2023-11-24 | 中汽信息科技(天津)有限公司 | 一种专利数据库的构建方法和电子设备 |
CN117112735B (zh) * | 2023-10-19 | 2024-02-13 | 中汽信息科技(天津)有限公司 | 一种专利数据库的构建方法和电子设备 |
CN117807275A (zh) * | 2023-12-29 | 2024-04-02 | 江南大学 | 基于关系挖掘的异构图嵌入方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN115641009B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115641009B (zh) | 基于专利异构信息网络挖掘竞争者的方法及装置 | |
CN113590645B (zh) | 搜索方法、装置、电子设备及存储介质 | |
US20100241647A1 (en) | Context-Aware Query Recommendations | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
CN112559747B (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
Sajadmanesh et al. | Continuous-time relationship prediction in dynamic heterogeneous information networks | |
JP2014106661A (ja) | ユーザ状態予測装置及び方法及びプログラム | |
CN112818230B (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN111475725A (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
Zhang et al. | Unsupervised entity resolution with blocking and graph algorithms | |
WO2021253238A1 (en) | Learning interpretable relationships between entities, relations, and concepts via bayesian structure learning on open domain facts | |
CN107527289B (zh) | 一种投资组合行业配置方法、装置、服务器和存储介质 | |
CN112989235A (zh) | 基于知识库的内链构建方法、装置、设备和存储介质 | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN117574915A (zh) | 基于多方数据源的公共数据平台及其数据分析方法 | |
CN113033194A (zh) | 语义表示图模型的训练方法、装置、设备和存储介质 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN112989170A (zh) | 应用于信息搜索的关键词匹配方法、信息搜索方法及装置 | |
Chen et al. | Scaling up Markov logic probabilistic inference for social graphs | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 | |
Zhu et al. | PDHF: Effective phishing detection model combining optimal artificial and automatic deep features | |
Liu et al. | Dynamic updating of the knowledge base for a large-scale question answering system | |
CN114969371A (zh) | 一种联合知识图谱的热度排序方法及装置 | |
CN114037060A (zh) | 预训练模型的生成方法、装置、电子设备以及存储介质 | |
CN113868481A (zh) | 组件获取方法、装置及电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |