CN107220320A - 一种基于专利引文的新兴技术识别方法 - Google Patents

一种基于专利引文的新兴技术识别方法 Download PDF

Info

Publication number
CN107220320A
CN107220320A CN201710356745.5A CN201710356745A CN107220320A CN 107220320 A CN107220320 A CN 107220320A CN 201710356745 A CN201710356745 A CN 201710356745A CN 107220320 A CN107220320 A CN 107220320A
Authority
CN
China
Prior art keywords
technology
emerging technology
labeled
data
citation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710356745.5A
Other languages
English (en)
Other versions
CN107220320B (zh
Inventor
程戈
欧阳建权
周金海
何春辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201710356745.5A priority Critical patent/CN107220320B/zh
Publication of CN107220320A publication Critical patent/CN107220320A/zh
Application granted granted Critical
Publication of CN107220320B publication Critical patent/CN107220320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据挖掘领域,具体涉及一种基于专利引文的新兴技术识别方法。步骤如下:S1特征化专利引文;S2将T+1年专利依据其主分类号分组记为Gy;S3如果该主分类号是T+1年新建的则标注Gy为新技术分组;S4对于T年专利根据专利引文特征向量聚类,聚簇记为Cx;S5计算T年的任一C′x与T+1年Cy的专利同引的耦合度;S6找到与C′x耦合度最高的G′y;S7如果G′y为新兴技术分组则标记为新兴技术;S8循环S4直至T年的Cx都被标记;S9循环S1直至除最大年份外的专利都完成聚类与标注;S10使用标注数据训练分类器;S11使用该分类器判定新兴技术。本发明提出的方法具有较高的新兴技术识别正确率和适用性。

Description

一种基于专利引文的新兴技术识别方法
技术领域
本发明涉及计算机数据挖掘领域,具体涉及一种基于专利引文的新兴技术识别方法。
背景技术
当今世界,科技的发展已经进入到了一个前所未有的时代。新兴技术发展势头强劲,进步速度迅猛,技术类型层出不穷。新兴技术是新技术的一部分,反过来,新技术就不一定属于新兴技术,正因如此,在所有新技术中对新兴技术进行有效识别就显得至关重要,它将直接关乎到我们的经济、科技的发展速度。随着社会发展与科技进步,各领域里大量的新兴技术如雨后春笋般涌现出来。但是真正能够进入市场并产生较大社会影响的却是寥寥无几,因而,谁能率先识别并应用这些技术指导生产实践,谁就能在竞争中脱颖而出,从而引领群雄。随着社会的发展,新兴技术识别的手段和方法越来越多,复杂性也越来越高,识别难度也在逐步增大。
识别方法主要分为主观识别方法和基于文献的识别方法。最早的新兴技术识别方法主要采用专家讨论的形式来实现,此方法比较便捷,主观方法取决于专家的个人经验和能力,存在追随权威和随众现象,以及缺乏客观评价标准等弊端。随着计算机技术的发展,人们收集处理数据能力越来越强。基于文献的新兴技术识别方法成为主要的研究趋势。依据文献来源分为基于非专利文献与专利文献测新兴技术识别方法。主要采用文本聚类技术、主题提取、共词分析、网络演化等方法对新兴技术的识别进行实证研究,利用这些方法来识别新兴技术。通过从这些文献中抽取特征词来构成实体,然后在构建识别模型,在一定程度上降低了主观性的影响,但是特征词抽取的难度较大,而且会造成信息损失。
在新兴技术识别中,目标技术和新兴技术的依赖性起到了关键的作用,并且技术发展越快,新兴技术的作用就越突出。正因如此,在所有新技术中对新兴技术进行有效识别就显得至关重要,它将直接关乎到中国的经济、科技的发展速度。随着社会的全面发展,各大领域里的新兴技术快速的涌现出来。但是真正能够进入市场并产生较大社会影响的却是寥寥无几,因而,谁能率先识别并应用这些技术指导生产实践,谁就能在竞争中脱颖而出,从而引领群雄。
发明内容
本发明通过对特征化处理的引文数据进行新兴技术标注与识别。采用聚类方法对特征化的引文信息进行聚类,将相似特征信息的专利数据划分到同一个聚族,再利用往年的新兴技术与专利分类号得关系对聚族进行新兴技术标注,利用标注的数据训练分类器,将新兴技术的识别问题转化为一个分类问题。
基于专利引文的新兴技术识别方法,所述方法包括以下步骤:
S1特征化用于训练的引文数据库;
S2将在T+1年公布的每一项专利依据其主分类号进行分组,将分组记为Gy;
S3如果该主分类号是T+1年新建立的,将Gy标注为新技术分组,否则记为非新技术分组;
S4对于T年中所有专利根据专利引文特征向量进行聚类,将聚簇记为Cx;
S5对于T年的任一计算与T+1年所有分组Cy的专利同引的耦合度;
S6找到与专利同引的耦合度最高的分组
S7如果为新兴技术分组,将聚簇标记为新兴技术,否则标记为非新型技术;
S8循环步骤4,直至T年所有的聚簇Cx被标记完毕;
S9循环步骤1,直至专利数据除了年份最大的其他专利都完成聚类与标注;
S10 采用标注数据训练分类器;
S11 使用该分类器判定基于专利引文特征向量的聚簇是否为新兴技术。
所述步骤S1中,特征化引文数据库是指引文数据表达(或者特征)的选择,既抽取引文或专利文件的部分指标数据作为特征数据,多个特征数据构成特征向量,例如选取权利要求项数、引文总数量、非专利文献引文数量、专利分类号、技术生命周期、被引技术的相似性指数、被引技术所有者平均相似性指数等作为特征向量。
所述步骤S5中,专利同引的耦合度是指聚簇Cx和Gy的文献耦合相似度(BCS),计算公式为:
本发明的技术效果或优点:
相比现有的技术方案,本发明提出的基于专利引文分析的新兴技术识别方法可以降低现有识别方法的主观性,简化了特征提取的复杂度,可以客观快速的对专利数据进行新兴技术标注,这些标注数据可以用于训练各种分类器,因此该方法具有良好的可扩展性,可以高效迅速准确的预测新兴技术。
附图说明
图1是基于专利引文的新兴技术识别方法流程图。
图2是深度神经网络分类器的***结构图
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式做进一步描述。
基于专利引文的新兴技术识别方法,如图1所示,所述方法包括以下步骤:
S1特征化用于训练的引文数据库;
S2将在T+1年公布的每一项专利依据其主分类号进行分组,将分组记为Gy;
S3如果该主分类号是T+1年新建立的,将Gy标注为新技术分组,否则记为非新技术分组;
S4对于T年中所有专利根据专利引文特征向量进行聚类,将聚簇记为Cx;
S5对于T年的任一计算与T+1年所有分组Cy的专利同引的耦合度;
S6找到与专利同引的耦合度最高的分组
S7如果为新兴技术分组,将聚簇标记为新兴技术,否则标记为非新型技术;
S8循环步骤4,直至T年所有的聚簇Cx被标记完毕;
S9循环步骤1,直至专利数据除了年份最大的其他专利都完成聚类与标注;
S10 采用标注数据训练分类器;
S11 使用该分类器判定基于专利引文特征向量的聚簇是否为新兴技术。
在步骤S1中,特征化引文数据库是指引文数据表达(或者特征)的选择,既抽取引文或专利文件的部分指标数据作为特征数据,多个特征数据构成特征向量。在本实施例中采用如下特征数据:
1)权利要求项数;2)引文总数量;3)非专利文献引文数量;4)专利分类号;5)技术生命周期,本实施例中采用如下计算公式:
其中是第i篇专利申请日期,是第i篇专利引用的第j篇专利的申请日期;
6)被引技术的相似性指数(CTSI)专利分类***对不同领域的技术进行了划分。大类只是限定了大概的领域,而小类才会给出更具体的领域,在实际中往往是采用大类和小类相结合来共同构成专利的分类号。本实施例采用如下的计算公式:
下面给出用于两个主分类号之间相似性计算的公式:
如果一项专利往往拥有几项分类号,因此需要求出两项专利分类号之间的平均相似度(),以下是的表达式:
这里表示专利p和专利q各自所拥有的分类号的数量。
最后,再来计算第x篇专利的被引技术相似性指数,指标的计算公式如下:
此处,引用的专利总数, 是被x引用的第n项专利;
7)被引技术所有者平均相似性指数(CASI)。一项专利通常情况下有一个或多个专利权人,采取下面的公式计算两项技术的专利权人相似性指标:
其中
这里是专利p和专利q各自的专利权人的数量,
在步骤S4中,对专利引文数据进行特征化后进行聚类操作,在本实施例中结合两种聚类算法和美国专利分类体系的优势来设计聚类步骤。首先,使用DBSCAN聚类算法按不同的年份对引文数据进行聚类,得到该数据集的聚簇类别数K1,然后考虑美国专利分类体系中的大类数目为450,这样就可以得到两个聚类的数目,为了减少误差,最终取这两个类别数的平均值,即K=(K1+450)/2,并向上取整。这样得到的这个K就更加接近真实的类别数,然后将K值带入K-means聚类算法,按不同年份对引文数据进行聚类。
在步骤S5中专利同引的耦合度是指聚簇Cx和Gy的文献耦合相似度(BCS),在本实施例中采用以下计算公式:
在步骤S10采用标注数据训练分类器,在本实施例中采用深度神经网络作为分类器。如图2所示,该分类器可分为四层,如图所示第一层是输入层,本层需要对输入数据进行预处理,形成统一格式的数据矩阵;然后就是深度神经网络层,该层由3层RBM堆叠而成,主要功能就是对数据进行重构,自动提取出合适的特征;接下来是分类器所在的决策层,该层使用Logistic Regression算法来设计分类器,然后再对分类结果应用Softmax算法进行概率转换。将结果中概率较大的所对应的下标作为分类结果,因为原分类结果只有两个维度,因此最终的分类结果只有0或者1,0代表非新兴技术,1代表新兴技术。
本实施例中选取RBM算法作为深度信念网络各层之间的重构算法。信念网络里面各层之间RBM调节的主要通过多个隐含层的相互转化,从而为RBM内部的参数调节提供训练目标,通过降低重构矩阵与原矩阵的差异来达到调节RBM参数的最终目标。对于RBM的参数学习采用对数似然度极大化的思想来获取RBM算法中参数的表达式定义如下:
为了获得最优参数,可以使用随机梯度上升法,其中关键步骤是计算关于各个模型参数的偏导数。由式2.1可以求出求关于分布P的均值。
深度模型的反馈微调主要通过三个过程来实现:加载参数、构造数据矩阵、循环调节。其中前两个过程主要是在完成整个深度模型前期的准备工作,而循环调节过程才是整个深度模型反馈调节机制的核心。随层次增加,深度表示的维度也在逐渐变化,在反馈微调阶段,先通过识别模型自底向上进行转换,到了最上层之后,再进行自顶向下的生成模型的转换,从而生成对各个层次的重构展现。最后通过对原始表示和重构表示的不断优化调节,从而来实现两者的误差最小化。
本实施例中采用BP算法对自底向上的识别模型和自顶向下的生成模型相结合的方式来进行微调。经过网络的识别模型,本文可以近似得到深度模型对输入数据最初的各个层次上的表示形式,并得到一个深度模型对样本最高层次的抽象表示形式,通过该生成模型,本文可以从模型的最高层次表示形式出发,重构展示深度模型对样本数据的各个层次的表示,这样就可以为原来的每个层级的训练提供优化目标。经过各个层次的不断调节,生成模型就可以重构出具有较低误差的训练样本,通过以上步骤模型可以自动学习出原样本的数据特征,即最高层次的抽象表示形式。
上面是本发明提供的基于专利引文的新兴技术识别方法优选实施方式,并不构成对本发明的保护权限,任何在本发明上的改进,只要原理相同,都包含在本发明的权利要求保护范围之内。

Claims (3)

1.基于专利引文的新兴技术识别方法,所述方法包括以下步骤:
S1特征化引文数据库;
S2将在T+1年公布的每一项专利依据其主分类号进行分组,将分组记为Gy;
S3如果该主分类号是T+1年新建立的,将Gy标注为新技术分组,否则记为非新技术分组;
S4对于T年中所有专利根据专利引文特征向量进行聚类,将聚簇记为Cx;
S5对于T年的任一计算与T+1年所有分组Cy的专利同引的耦合度;
S6找到与专利同引的耦合度最高的分组
S7如果为新兴技术分组,将聚簇标记为新兴技术,否则标记为非新型技术;
S8循环步骤4,直至T年所有的聚簇Cx被标记完毕;
S9循环步骤1,直至专利数据除了年份最大的其他专利都完成聚类与标注;
S10 采用标注数据训练分类器;
S11 使用该分类器判定基于专利引文特征向量的聚簇是否为新兴技术。
2.根据权利要求1的方法,其中在所述步骤S1中,特征化引文数据库是指引文数据表达(或者特征)的选择,既抽取引文或专利文件的部分指标数据作为特征数据,多个特征数据构成特征向量,例如选取权利要求项数、引文总数量、非专利文献引文数量、专利分类号、技术生命周期、被引技术的相似性指数、被引技术所有者平均相似性指数等作为特征向量。
3.根据权利要求1-2中任何一项的方法,其中在所述步骤S5中,专利同引的耦合度是指聚簇Cx和Gy的文献耦合相似度(BCS),计算公式为:
CN201710356745.5A 2017-05-19 2017-05-19 基于专利引文的新兴技术识别方法 Active CN107220320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710356745.5A CN107220320B (zh) 2017-05-19 2017-05-19 基于专利引文的新兴技术识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710356745.5A CN107220320B (zh) 2017-05-19 2017-05-19 基于专利引文的新兴技术识别方法

Publications (2)

Publication Number Publication Date
CN107220320A true CN107220320A (zh) 2017-09-29
CN107220320B CN107220320B (zh) 2020-08-25

Family

ID=59944417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710356745.5A Active CN107220320B (zh) 2017-05-19 2017-05-19 基于专利引文的新兴技术识别方法

Country Status (1)

Country Link
CN (1) CN107220320B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143511A (zh) * 2019-12-16 2020-05-12 北京工业大学 新兴技术预测方法、装置、电子设备及介质
CN112612785A (zh) * 2020-11-20 2021-04-06 北京理工大学 一种非常规能源技术关键发展路径动态监测方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023069493A1 (en) * 2021-10-20 2023-04-27 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Prediction of transformative breakthroughs in research

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
CN102004738A (zh) * 2009-08-31 2011-04-06 上海汉光知识产权数据科技有限公司 专利技术引证分析***及方法
CN102004736A (zh) * 2009-08-28 2011-04-06 上海汉光知识产权数据科技有限公司 专利被引证关系显示***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
CN102004736A (zh) * 2009-08-28 2011-04-06 上海汉光知识产权数据科技有限公司 专利被引证关系显示***
CN102004738A (zh) * 2009-08-31 2011-04-06 上海汉光知识产权数据科技有限公司 专利技术引证分析***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANTHONY BREITZMAN,PATRICK THOMAS: "The Emerging Clusters Model:A tool for identifying emerging", 《RESEARCH POLICY》 *
PETER ERDI,ET AL: "Prediction of emerging technologies based on analysis of the US patent citation network", 《SCIENTOMETRICS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143511A (zh) * 2019-12-16 2020-05-12 北京工业大学 新兴技术预测方法、装置、电子设备及介质
CN112612785A (zh) * 2020-11-20 2021-04-06 北京理工大学 一种非常规能源技术关键发展路径动态监测方法
CN112612785B (zh) * 2020-11-20 2023-11-17 北京理工大学 一种非常规能源技术关键发展路径动态监测方法

Also Published As

Publication number Publication date
CN107220320B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111814871A (zh) 一种基于可靠权重最优传输的图像分类方法
CN110110080A (zh) 文本分类模型训练方法、装置、计算机设备及存储介质
CN110442684A (zh) 一种基于文本内容的类案推荐方法
CN106779087A (zh) 一种通用机器学***台
CN104035996B (zh) 基于Deep Learning的领域概念抽取方法
CN107944480A (zh) 一种企业行业分类方法
CN105589806A (zh) 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN104866829A (zh) 一种基于特征学习的跨年龄人脸验证方法
CN106919951A (zh) 一种基于点击与视觉融合的弱监督双线性深度学习方法
CN106778921A (zh) 基于深度学习编码模型的人员再识别方法
CN108345860A (zh) 基于深度学习和距离度量学习的人员再识别方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN102915445A (zh) 一种改进型的神经网络高光谱遥感影像分类方法
CN109492673A (zh) 一种基于谱聚类采样的不平衡数据预测方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN111160750A (zh) 一种基于关联规则挖掘的配网分析和投资决策方法
CN107403191A (zh) 一种具有深度结构的半监督超限学习机分类方法
CN107220320A (zh) 一种基于专利引文的新兴技术识别方法
CN104809230A (zh) 一种基于多分类器集成的卷烟感官质量评估方法
Athani et al. Student academic performance and social behavior predictor using data mining techniques
CN110097060A (zh) 一种面向树干图像的开集识别方法
CN109165672A (zh) 一种基于渐进式学习的集成分类方法
CN106971180A (zh) 一种基于语音字典稀疏迁移学习的微表情识别方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN104318515A (zh) 基于nnia进化算法的高光谱图像波段降维方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170929

Assignee: Xiangtan Productivity Promotion Center Co.,Ltd.

Assignor: XIANGTAN University

Contract record no.: X2022980023366

Denomination of invention: Identification Method of Emerging Technologies Based on Patent Citation

Granted publication date: 20200825

License type: Common License

Record date: 20221125

EE01 Entry into force of recordation of patent licensing contract