CN109446319A - 一种基于K-means的生物医药专利聚类分析方法 - Google Patents
一种基于K-means的生物医药专利聚类分析方法 Download PDFInfo
- Publication number
- CN109446319A CN109446319A CN201811147583.5A CN201811147583A CN109446319A CN 109446319 A CN109446319 A CN 109446319A CN 201811147583 A CN201811147583 A CN 201811147583A CN 109446319 A CN109446319 A CN 109446319A
- Authority
- CN
- China
- Prior art keywords
- clustering
- data
- cluster
- biological medicine
- granted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000003814 drug Substances 0.000 title claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000011161 development Methods 0.000 abstract description 8
- 238000007418 data mining Methods 0.000 abstract description 5
- 238000005065 mining Methods 0.000 abstract description 4
- 230000007812 deficiency Effects 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 11
- 229940079593 drug Drugs 0.000 description 10
- 239000010755 BS 2869 Class G Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 229960000074 biopharmaceutical Drugs 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 244000005700 microbiome Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 108700042778 Antimicrobial Peptides Proteins 0.000 description 1
- 102000044503 Antimicrobial Peptides Human genes 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229940126678 chinese medicines Drugs 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 102220201851 rs143406017 Human genes 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于K‑means的生物医药专利聚类分析方法,属于信息检索技术领域。当前,随着时代技术的发展,专利数量急剧增加。专利信息作为技术情报最有效的载体,隐藏了大量的技术信息。传统的专利数据挖掘存在效率低、维度单一、数据样本小、层次不够深入等问题,以无法满足如今对专利数据挖掘的需求。本发明将专利分析中专利申请量、专利授权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析。该方法能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,使聚类结果更具整体性,以弥补传统专利数据分析的不足。
Description
技术领域
本发明涉及一种基于K-means的生物医药专利聚类分析方法,属于信息检索技术领域。
背景技术
在数据挖掘技术扩展到专利文献挖掘之前,专利信息作为技术情报最有效的载体, 隐藏了大量的技术信息。传统的专利数据挖掘存在效率低、维度单一、数据样本小、 层次不够深入等问题,以无法满足如今对专利数据挖掘的需求。本发明提出了一种基 于层次聚类的生物医药专利聚类分析方法,该方法将专利分析中专利申请量、专利授 权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析。 该方法能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,使聚类结果 更具整体性,以弥补传统专利数据分析的不足。
发明内容
本发明要解决的技术问题是提供了一种基于K-means的生物医药专利聚类分析方法,该方法能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,使聚类 结果更具整体性。
本发明的技术方案是:一种基于K-means的生物医药专利聚类分析方法,所述方法的具体步骤如下:
Step1、选定专利申请量、专利授权量、专利成长率和专利有效率作为聚类变量;
Step2、K-means聚类;
所述步骤Step1中的聚类变量计算方法为:
Step1.1、专利成长率为当年授权专利量与上一年专利授权量的百分比;
Step1.2、专利有效率为截止当年最后一日的有效专利数量与截止当年最后一日所 有授权专利数量的百分比;
所述步骤Step2中K-means聚类具体步骤如下:
Step2.1、选择K个初始中心点作为聚类中心;
采用SSE(sum of the squared errors,误差平方和)的方法确定K的取值,具体算法 如下:
其中,ci是第i个簇,p是ci中的样本点,mi是ci的质心,SSE是所有样本的聚类误差,代表了聚类效果的好坏。
Step2.2、在第N次迭代中,对任意一个样本计算其到K个中心的距离,将该样本 归到距离最近的中心所在的类;
Dkl表示Gk和Gl之间的距离,则离差平方和法计算公式如下:
Dki=Wm-Wk-Wi
式中: 分别是类Gk、类Gl和类Gm的重心。
由于数据存在不同量纲、不同数量级,为了使各数据之间具有可比性,使数据能在更平等的条件下进行聚类分析,有必要对数据进行标准化变换。因此,采用标准正 态变换方式,把原始数据转换为标准Z分数(Z scores),其计算公式:
采用的是平方欧式距离,原始数据中包含p个变量,那个每个样本就是p维空间 中的一个点。用x=(x1,x2,…,xp)和y=(y1,y2,…,yp)表示两个样本,则 两个样本p个变量之间的平方欧式距离计算公式如下:
Step2.3、重新计算每个聚类中所有点的平均值,并将其更新为新的聚类中心;
Step2.4、重复第二步、第三步的过程,直到聚类中心不再产生变化或小于给定的阈值。
本发明的有益效果是:本发明创造性的选取了专利分析中较为重要的分析指标:专利申请量、专利授权量、专利成长率和专利有效率作为聚类变量,能够深层次挖掘 数据间的关联,较好地对专利数据进行类别划分,使聚类结果更具整体性,以弥补传 统专利数据分析的不足。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种基于K-means的生物医药专利聚类分析方法,所述方法的具体步骤如下:
Step1、选定专利申请量、专利授权量、专利成长率和专利有效率作为聚类变量;
Step2、K-means聚类;
所述步骤Step1中的聚类变量计算方法为:
Step1.1、专利成长率为当年授权专利量与上一年专利授权量的百分比;
Step1.2、专利有效率为截止当年最后一日的有效专利数量与截止当年最后一日所 有授权专利数量的百分比;
所述步骤Step2中K-means聚类具体步骤如下:
Step2.1、选择K个初始中心点作为聚类中心;
采用SSE(sum of the squared errors,误差平方和)的方法确定K的取值,具体算法 如下:
其中,ci是第i个簇,p是ci中的样本点,mi是ci的质心,SSE是所有样本的聚类误差,代表了聚类效果的好坏。
Step2.2、在第N次迭代中,对任意一个样本计算其到K个中心的距离,将该样本 归到距离最近的中心所在的类;
Dkl表示Gk和Gl之间的距离,则离差平方和法计算公式如下:
Dki=Wm-Wk-Wi
式中: 分别是类Gk、类Gl和类Gm的重心。
由于数据存在不同量纲、不同数量级,为了使各数据之间具有可比性,使数据能在更平等的条件下进行聚类分析,有必要对数据进行标准化变换。因此,采用标准正 态变换方式,把原始数据转换为标准Z分数(Z scores),其计算公式:
采用的是平方欧式距离,原始数据中包含p个变量,那个每个样本就是p维空间 中的一个点。用x=(x1,x2,…,xp)和y=(y1,y2,…,yp)表示两个样本,则 两个样本p个变量之间的平方欧式距离计算公式如下:
Step2.3、重新计算每个聚类中所有点的平均值,并将其更新为新的聚类中心;
Step2.4、重复第二步、第三步的过程,直到聚类中心不再产生变化或小于给定的阈值。
为了具体阐述专利方法的实现过程,以云南省生物医药专利数据,结合附图1所示实现过程,具体阐述其年度发展情况、专利IPC分类号及其申请人分布情况。
实施例1:云南省生物医药专利数据年度发展状况分析
专利预处理:云南省1998年-2017年生物医药产业专利年度发展情况数据预处理结果如下表所示:
执行K-means聚类分析,结果如下表所示:
结果分析:Cluster为1的是第一类,包括的年份为1998年—2002年这5年。这5年,生物医药领域在申请专利方面也是呈现起步趋势,虽然这5年间专利申请量以每年将近1.7倍的速度增加,但是基数比较低,并不具有代表性,但是专利意识已经被少部分人了解和认识。Cluster为2的是第二类,包括的年份为2003年—2009年这7年。产业的推动势必要有 技术方面的突破,生物医药企业、高效和科研院所在生物医药领域技术研发方面增大力度,对知识产权的保护和利用也逐渐有了新的认识,在寻求专利保护技术方面进行了不断尝试。 虽然第2类中这7年中专利申请量基数不断增大,但是专利授权量和专利成长率却有较大波 动,这也是生物医药领域在专利申请方面逐渐发展的正常现象。Cluster为3的是第三类,包 括的年份为2010年—2014年这5年。Cluster为4的是第四类,包括的年份为2015年、2016 年、2017年,这三年专利申请量的大幅增加表名生物医药企业和相关科研院所越来越重视申 请专利来保护技术成果。受发明专利授权周期长等因素影响,专利授权量较之其他年份有着 不小的滑落。受专利申请量、专利授权量的影响,专利增长率较之其他年份也随之减少。
实施例2:云南省生物医药专利数据IPC分类号聚类分析
数据预处理:通过专利数据预处理,将云南省生物医药IPC分类号状况信息制作成表
执行K-means聚类分析,结果如下表所示:
结果分析:第1类IPC分类号为A61,在《国际专利分类表》中,A61代表医学 或兽医学、卫生学。IPC分类号为A61的专利申请量高达7075件,专利授权量也高达 5397件,这表明A61这一技术领域在云南省生物医药产业中占据着重要位置。医学或 兽医学、卫生学代表着生物医药领域很大的一个范围,因此生物医药企业和科研院所 在这一个广泛的技术范围内均有所涉及。第2类IPC分类号为C12Q、C12R,在《国 际专利分类表》中,代表着微生物或酶、其组合物的测验、检测以及控制方法。这几 类技术领域在近年来专利申请量增长迅速,专利授权量、成长率较高,表明在这些技 术领域研发投入增大,技术有所突破。第3类IPC分类号为C12N,在《国际专利分类 表》中,C12N代表着微生物或酶、其组合物。C12N作为IPC小类,专利申请量和授 权量却是有着很大的数量,远远高于其他IPC小类。微生物和酶在中药、天然药发酵 制药技术方面有着重要作用,结合云南省独特的天然资源,势必在中药、天然药方面 不断寻求技术突破。C12N这一类技术领域在近年来科研成果也较为***。第4类IPC 分类号为C07H、C07K、C12M、C12P、G01N33,在《国际专利分类表》中,这7类 分别代表着核苷酸、肽、微生物装置、酶学等众多细微领域。这些领域对研究云南省 独有的天然药、中药和民族药有着巨大的技术支撑。因此这一类技术领域也势必将成 为云南省生物医药产业发展的核心。综合4类IPC分类号的聚类分析可以看出,云南 省在生物医药领域已经开始专注于利用其独特的天然优势大力发展中药、天然药、民 族药,与之相关的产业发展可以通过专利发展状况分析。通过专利IPC分类号可以归 纳、总结并且分析出某几大类领域的发展态势。
实施例3:云南省生物医药专利数据申请人聚类分析
通过专利数据预处理,将云南省生物医药专利数据专利高产申请人状况信息制作成表
执行K-means聚类分析,结果如下表所示:
结果分析:昆明理工大学、中科院昆明植物研究所为第1类,这两位申请人均为 科研机构。从表3也不难看出,这两所科研机构在专利申请量、专利授权量上均大幅 度领先其他申请人。其专利成长率、和专利有效率也趋于较高水平。云南大学、中科 院昆明动物研究所、云南农业大学、大理学院这四所科研机构聚为第2类。从表3可 以看出,第2类的四所科研机构在各项指标中均比较平稳,基础也相对较大。云南中 医学院、云南省药物研究生、云南白药集团股份有限公司、昆明医科大学、昆明振华 制药厂有限公司、昆药集团股份有限公司聚为第3类。第3类中的申请人均是生物医 药领域的企业和科研机构。第3类的申请人具有比较突出的特点,就是专利数量相对 较少,但是增长速度快,专利有效率较高。所以这一类中申请人的专利价值往往比较 大。剩下的申请人聚为第4类,其中包含有科研机构、企业、自然人,类中申请人比 较复杂,各指标差异比较大。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨 的前提下作出各种变化。
Claims (3)
1.一种基于K-means的生物医药专利聚类分析方法,其特征在于:
Step1、选定专利申请量、专利授权量、专利成长率和专利有效率作为聚类变量;
Step2、K-means聚类。
2.根据权利要求1所述的基于K-means的生物医药专利聚类分析方法,其特征在于:所述步骤Step1中的聚类变量计算方法为:
Step1.1、专利成长率为当年授权专利量与上一年专利授权量的百分比;
Step1.2、专利有效率为截止当年最后一日的有效专利数量与截止当年最后一日所有授权专利数量的百分比。
3.根据权利要求1所述的基于K-means的生物医药专利聚类分析方法,其特征在于:所述步骤Step2中K-means聚类具体步骤如下:
Step2.1、选择K个初始中心点作为聚类中心;
Step2.2、在第N次迭代中,对任意一个样本计算其到K个中心的距离,将该样本归到距离最近的中心所在的类;
Step2.3、重新计算每个聚类中所有点的平均值,并将其更新为新的聚类中心;
Step2.4、重复第二步、第三步的过程,直到聚类中心不再产生变化或小于给定的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811147583.5A CN109446319A (zh) | 2018-09-29 | 2018-09-29 | 一种基于K-means的生物医药专利聚类分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811147583.5A CN109446319A (zh) | 2018-09-29 | 2018-09-29 | 一种基于K-means的生物医药专利聚类分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109446319A true CN109446319A (zh) | 2019-03-08 |
Family
ID=65544460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811147583.5A Pending CN109446319A (zh) | 2018-09-29 | 2018-09-29 | 一种基于K-means的生物医药专利聚类分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446319A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442623A (zh) * | 2019-08-08 | 2019-11-12 | 厦门久凌创新科技有限公司 | 大数据挖掘方法、装置及数据挖掘服务器 |
CN111126449A (zh) * | 2019-11-29 | 2020-05-08 | 合肥国轩高科动力能源有限公司 | 一种基于聚类分析的电池故障分类诊断方法 |
CN113313159A (zh) * | 2021-05-24 | 2021-08-27 | 广西壮族自治区水产科学研究院 | 一种兽药高通量聚类分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164540A (zh) * | 2013-04-15 | 2013-06-19 | 武汉大学 | 一种专利热点发现与趋势分析方法 |
CN103678500A (zh) * | 2013-11-18 | 2014-03-26 | 南京邮电大学 | 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法 |
CN106372051A (zh) * | 2016-10-20 | 2017-02-01 | 长城计算机软件与***有限公司 | 一种专利地图的可视化方法和*** |
-
2018
- 2018-09-29 CN CN201811147583.5A patent/CN109446319A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164540A (zh) * | 2013-04-15 | 2013-06-19 | 武汉大学 | 一种专利热点发现与趋势分析方法 |
CN103678500A (zh) * | 2013-11-18 | 2014-03-26 | 南京邮电大学 | 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法 |
CN106372051A (zh) * | 2016-10-20 | 2017-02-01 | 长城计算机软件与***有限公司 | 一种专利地图的可视化方法和*** |
Non-Patent Citations (2)
Title |
---|
杨森 等: "基于层次聚类的云南省生物医药产业专利发展状况研究", 《科技和产业》 * |
王旭: "《市场营销数据化研究》", 30 September 2003 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442623A (zh) * | 2019-08-08 | 2019-11-12 | 厦门久凌创新科技有限公司 | 大数据挖掘方法、装置及数据挖掘服务器 |
CN110442623B (zh) * | 2019-08-08 | 2021-08-27 | 厦门久凌创新科技有限公司 | 大数据挖掘方法、装置及数据挖掘服务器 |
CN111126449A (zh) * | 2019-11-29 | 2020-05-08 | 合肥国轩高科动力能源有限公司 | 一种基于聚类分析的电池故障分类诊断方法 |
CN113313159A (zh) * | 2021-05-24 | 2021-08-27 | 广西壮族自治区水产科学研究院 | 一种兽药高通量聚类分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | The effects of ecological factors on the main medicinal components of Dendrobium officinale under different cultivation modes | |
CN109446319A (zh) | 一种基于K-means的生物医药专利聚类分析方法 | |
Xu et al. | Coupling and coordination degrees of the core water–energy–food nexus in China | |
Li et al. | Water–nitrogen coupling and multi-objective optimization of cotton under mulched drip irrigation in arid northwest China | |
Morgan et al. | Nutrient status and root density of Huanglongbing-affected trees: Consequences of irrigation water bicarbonate and soil pH mitigation with acidification | |
Xiao et al. | Salt leaching with brackish water during growing season improves cotton growth and productivity, water use efficiency and soil sustainability in southern Xinjiang | |
Yan et al. | Integrative metabolome and transcriptome analysis reveals the regulatory network of flavonoid biosynthesis in response to MeJA in Camellia vietnamensis Huang | |
Yu et al. | Transcriptome analysis of light-regulated monoterpenes biosynthesis in leaves of Mentha canadensis L. | |
Zhao et al. | Changes in carotenoid concentration and expression of carotenoid biosynthesis genes in Daucus carota taproots in response to increased salinity | |
Dong et al. | Optimization of fracturing parameters with machine-learning and evolutionary algorithm methods | |
Yin et al. | Effect of the rare earth element lanthanum (La) on the growth and development of citrus rootstock seedlings | |
Sun et al. | Effects of Timing in Irrigation and Fertilization on Soil NO3−-N Distribution, Grain Yield and Water–Nitrogen Use Efficiency of Drip-Fertigated Winter Wheat in the North China Plain | |
Meng et al. | Analysis of floral fragrance compounds of Chimonanthus praecox with different floral colors in Yunnan, China | |
Gambino et al. | Secondary metabolism and defense responses are differently regulated in two grapevine cultivars during ripening | |
Feng et al. | Transcriptomic characterization of Miscanthus sacchariflorus× M. lutarioriparius and its implications for energy crop development in the semiarid mine area | |
Zhao et al. | Landscape ecological risk assessment and planning enlightenment of Songhua River Basin based on multi-source heterogeneous data fusion | |
Du et al. | Driving force analysis of agricultural economic growth related to water utilization effects based on LMDI method in Ningxia, northwest China | |
Han et al. | Root-zone CO2 concentration affects partitioning and assimilation of carbon in oriental melon seedlings | |
Sun et al. | Analysis of metabolomic changes in xylem and phloem sap of cucumber under phosphorus stresses | |
Li et al. | Modelling and evaluation of potato water production functions in a cold and arid environment | |
Li et al. | Ecostoichiometry reveals the separation of microbial adaptation strategies in a bamboo forest in an urban wetland under simulated nitrogen deposition | |
Zhao et al. | Climate variations in the low-latitude plateau contribute to different sugarcane (Saccharum spp.) yields and sugar contents in China | |
Li et al. | Gender effects of dioecious plant Populus cathayana on fungal community and mycorrhizal distribution at different arid zones in Qinghai, China | |
LeFait et al. | Maternal environmental effects of temperature and exogenous gibberellic acid on seed and seedling traits of four populations of evening primrose (Oenothera biennis) | |
Wang et al. | Effects of Nitrogen Form on Root Activity and Nitrogen Uptake Kinetics in Camellia oleifera Seedlings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |