CN102331987A - 专利数据挖掘***及方法 - Google Patents

专利数据挖掘***及方法 Download PDF

Info

Publication number
CN102331987A
CN102331987A CN2010102275015A CN201010227501A CN102331987A CN 102331987 A CN102331987 A CN 102331987A CN 2010102275015 A CN2010102275015 A CN 2010102275015A CN 201010227501 A CN201010227501 A CN 201010227501A CN 102331987 A CN102331987 A CN 102331987A
Authority
CN
China
Prior art keywords
proof
settlement
patent case
group
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102275015A
Other languages
English (en)
Inventor
管中徽
刘显仲
查士朝
郑正元
高振沧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2010102275015A priority Critical patent/CN102331987A/zh
Publication of CN102331987A publication Critical patent/CN102331987A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种专利数据挖掘***及方法,该***包括:专利群组获取单元,用于获取一专利群组;引证分析单元,用于分析该专利群组的各个专利案件之间的引证关系以建立一引证网络,该引证网络具有多个连结,每个该连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,该引证分析单元于该引证网络中获取一聚落,为该聚落中所具有的每个连结赋予一权重值;以及中心性指标获取单元,用于根据每个该连结所具有的权重值,计算该聚落中每个专利案件的中心性指标。

Description

专利数据挖掘***及方法
技术领域
本发明有关一种数据挖掘***及方法,尤其是指一种基于引证关系的专利数据挖掘***及方法。
背景技术
在知识经济的时代中,专利申请以取得排他权是企业保有竞争力的利器之一。专利除可以使业者维系其专属的领域知识、避免受到竞争者模仿或侵犯之外,亦可通过专利销售而创造收益。然而,在大量申请专利之后,对于专利申请所构成的庞大维护经费的负担是各个申请人所面临到的问题。为了减少经费支出以及有效的将有限资金予以运用,因此就必须将有限的资源运用在维护有价值的专利上。亦即,如果专利的价值远大于维护所需的成本,那么该专利自然就是值得维护的标的。不过,如何从大量专利案件中快速定位具备较高价值的专利案件,涉及到很多面向,因此,在此专利产业发展趋势下,专利数据的智能挖掘实为产业经营的重要课题。
在现有技术中,不论是研究机构或者是企业多半是以成本法或者是市场法来评估专利的价值,这样的评估方式,需要相当程度的人力投入来进行数据搜寻、产业分析等工作。对于存在大量的专利案件时,这样的方式存在效能低下的缺陷。
再加上大部分专利价值通常无法真正通过市场交易得到真正的价值,所以通过人力投入来进行数据搜寻以及产业分析对于价值评定的结果也差异很大。因此,常造成对同一篇专利的评估价值南辕北辙,反而造成厂商于授权谈判时的困扰。
综合上述,亟需一种客观、量化、科学化以及自动化的对专利群组进行数据挖掘的方法来解决现有技术所产生的问题,进而降低专利数据处理的成本。特别是通过全自动的技术方案,实现对专利案件的批量处理,自动定位目标数据,从而提高数据处理的效能。
发明内容
本发明解决的技术问题在于,对专利案件间的引证关系进行显示,并基于该引证关系对专利群组进行自动的数据挖掘,获得目标数据。
为解决上述技术问题,本发明公开了一种专利数据挖掘***,包括:
专利群组获取单元,用于获取一专利群组;
引证分析单元,用于分析该专利群组的各个专利案件之间的引证关系以建立一引证网络,该引证网络具有多个连结,每个该连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,该引证分析单元于该引证网络中获取一聚落,为该聚落中所具有的每个连结赋予一权重值;以及
中心性指标获取单元,用于根据每个该连结所具有的权重值,计算该聚落中每个专利案件的中心性指标。
为解决上述技术问题,本发明公开了一种专利数据挖掘***,包括:
专利群组获取单元,用于获取一专利群组;
引证分析单元,用于分析该专利群组的各个专利案件之间的引证关系,并根据该专利群组获取一引证网络,该引证网络具有多个连结,其中每个连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,并为每个连结赋予一权重值;
图像转换单元,用于将该引证网络转换为一引证树以进行显示;
中心性指标获取单元,用于根据每一连结所具有的权重值,计算该引证网络中每个专利案件的中心性指标;
自动识别单元,用于根据一预设阈值对该引证网络中的各个中心性指标进行判断,认定达到该预设阈值的中心性指标所对应的专利案件为目标数据以在该引证树中对该目标数据进行标识。
为解决上述技术问题,本发明还公开了一种专利数据挖掘方法,至少包含下列步骤:
利用专利群组获取单元获取一专利群组;
利用引证分析单元分析该专利群组的各个专利案件之间的引证关系以建立一引证网络,该引证网络具有多个连结,每个该连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,该引证分析单元于该引证网络中获取一聚落,并为该聚落中所具有的每个连结赋予一权重值;以及
利用中心性指标获取单元根据每个该连结所具有的权重值,计算该聚落中每个专利案件的中心性指标。
为解决上述技术问题,本发明还公开了一种专利数据挖掘方法,至少包含下列步骤:
利用专利群组获取单元获取一专利群组;
利用引证分析单元分析该专利群组的各个专利案件之间的引证关系,并根据该专利群组获取一引证网络,该引证网络具有多个连结,其中每个连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,并为每个连结赋予一权重值;
利用中心性指标获取单元,根据每一连结所具有的权重值,计算该引证网络中每个专利案件的中心性指标;
利用自动识别单元,根据一预设阈值对该引证网络中的各个中心性指标进行判断,认定达到该预设阈值的中心性指标所对应的专利案件为目标数据;
利用图像转换单元将该引证网络转换为一引证树以进行显示,并在该引证树中对该目标数据进行标识。
本发明实现的技术效果,显示专利案件间的引证关系,并基于该引证关系对专利群组进行自动的数据挖掘,获得目标数据。特别是可以实现对专利案件的批量处理,自动定位目标数据,从而提高数据处理的效能。
附图说明
图1A所示为本发明的专利数据挖掘***100的功能结构模块图;
图1B所示为本发明的专利数据挖掘方法的流程示意图;
图1C所示为本发明的专利数据挖掘***100另一实施例示意图;
图1D所示为本发明的专利数据挖掘方法的流程图;
图1E所示为在另一实施例中本发明的专利数据挖掘***的结构示意图;
图1F为本发明的专利数据挖掘方法实施例流程示意图;
图1G为本发明的专利数据挖掘方法实施例流程示意图;
图2为本发明的形成引证网络(聚落)第一实施例流程示意图;
图2A为本发明的专利数据挖掘***100的功能结构模块图;
图2B为本发明的专利数据挖掘***100的功能结构模块图;
图3A为根据一关键词所得到的检索结果示意图;
图3B为检索和目标专利案件P相关的专利群组示意图;
图4A至图4C为引证网络的聚落示意图;
图5A与图5B分别为利用SPLC或者是SPNP给予连结权重示意图;
图6为具有权重的引证网络(聚落)连结示意图;
图7为相对价值示意图;
图8A至图8C为本发明的产生引证网络(聚落)第二至第四实施例示意图。
其中,附图标记:
2-专利数据挖掘方法
20~25-步骤
200~203-步骤
300~327-专利案件
S-专利群组
S’-聚落
90、91、92-连结
G1、G2、G3-聚落
专利数据挖掘***100     专利群组获取单元11
引证分析单元12          中心性指标获取单元13
自动评价与识别单元14    图像转换单元15
更新单元111             引证网络选择单元123
搜寻路径连结记数单元121 搜寻路径节点对单元122
具体实施方式
为使贵审查委员能对本发明的特征、目的及功能有更进一步的认知与了解,下文特将本发明的方法的相关细节以及设计的理念源由进行说明,以使得审查委员可以了解本发明的特点,详细说明陈述如下:
本发明通过一专利数据挖掘***100对专利案件进行批量的数据处理,以得到目标数据,并对专利案件中存在的引证网络进行显示。该专利数据挖掘***100可设置在至少一台数据处理装置中。该数据处理装置包括现有技术中所常用的硬件结构,如电脑、工作站或服务器等,其包括处理器、存储器、内存、显示设备、输入设备、网络接口等。请参阅图1A所示,为本发明的专利数据挖掘***100的功能结构模块图。
专利数据挖掘***100包括一专利群组获取单元11、一引证分析单元12以及一中心性指标获取单元13。
专利群组获取单元11用于获取一专利群组。该专利群组获取单元11可以通过网络与一数据库连接,通过检索的操作接口与相关的检索条件从而直接从该数据库中取得到该专利群组。或者,从与专利群组获取单元11连接的存储器,例如硬盘中调取。
引证分析单元12用于对专利群组获取单元11所获取的专利群组中的各个专利案件进行引证关系分析,以于该专利群组的各个专利案件之间的引证关系建立一引证网络,该引证网络具有多个连结,每个该连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,该引证分析单元12并于该引证网络中获取一聚落,并为该聚落中所具有的每个连结赋予一权重值。
任两个专利案件之间可能具备引证关系,只要存在一次引证则具备一连结,多个专利申请之间存在的相互引证可最终形成一引证网络。
中心性指标获取单元13用于根据每一连结所具有的权重值,计算该引证网络中每个专利案件的中心性指标。该中心性指标用于表示每个专利案件的重要程度。
请参阅图1B所示,为本发明的专利数据挖掘方法的流程示意图。
步骤A,利用专利群组获取单元获取一专利群组;
步骤B,利用引证分析单元分析该专利群组的各个专利案件之间的引证关系以建立一引证网络,该引证网络具有多个连结,每个该连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,该引证分析单元于该引证网络中获取一聚落,并为该聚落中所具有的每个连结赋予一权重值;以及
步骤C,利用中心性指标获取单元,根据每一连结所具有的权重值,计算该聚落中每个专利案件的中心性指标。
如图1C所示,该图为本发明的专利数据挖掘***100的另一实施例的示意图。在本实施例中,该***基本上与图1A相似,差异的是该***100还具有一自动评价与识别单元14用于通过数据挖掘识别目标数据。
该自动评价与识别单元14可以如下方式实现:
第一,根据该聚落中所包括的一预设的具有价值的目标专利案件,判断该目标专利案件的中心性指标与该聚落中各个专利案件的中心性指标的相对评价指标,进而识别出该聚落中具有价值的其他专利案件作为目标数据。
第二,根据该聚落中所包括的一目标专利案件,与该聚落中的一具有确定价值的专利案件间的该中心性指标的比例,计算该目标专利案件所具有的价值。
第三,根据一预设阈值对该引证网络中的各个中心性指标进行判断,认定达到该预设阈值的中心性指标所对应的专利案件为目标数据。而该目标数据即为通过数据挖掘,从原始获得的专利群组中进一步筛选得到的。
请参阅图1D所示,为本发明的专利数据挖掘方法的流程示意图。
步骤A,利用专利群组获取单元获取一专利群组;
步骤B,利用引证分析单元分析该专利群组的各个专利案件之间的引证关系以建立一引证网络,该引证网络具有多个连结,每个该连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,该引证分析单元并于该专利群组获取一聚落,并为该聚落中所具有的每个连结赋予一权重值;
步骤C,利用中心性指标获取单元,根据每一连结所具有的权重值,计算该聚落中每个专利案件的中心性指标;
步骤D,利用自动评价与识别单元,识别目标数据。
如图1E所示为在另一实施例中本发明的专利数据挖掘***的结构示意图。
其中,该***进一步包括图像转换单元15,用于将该引证网络转换为一引证树以进行显示。另外,该被筛选出的目标数据也可在该引证树上被特别标识出。
请参阅图1F所示为本发明的专利数据挖掘方法的流程图。
步骤A,利用专利群组获取单元获取一专利群组;
步骤B,利用引证分析单元分析该专利群组的各个专利案件之间的引证关系以建立一引证网络,该引证网络具有多个连结,每个该连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,该引证分析单元并于该专利群组获取一聚落,并为该聚落中所具有的每个连结赋予一权重值;
步骤C,利用中心性指标获取单元,根据每一连结所具有的权重值,计算该聚落中每个专利案件的中心性指标;
步骤D,利用自动识别单元,根据一预设阈值对该引证网络中的各个中心性指标进行判断,认定达到该预设阈值的中心性指标所对应的专利案件为目标数据;
步骤E,利用图像转换单元将该聚落转换为一引证树以进行显示,并在该引证树中对该目标数据进行标识。
以下详细说明本发明,请参阅图1G所示,该图为本发明的专利数据挖掘方法实施例流程示意图。在该实施例中,该方法2包括有下列步骤,首先以步骤20提供一专利群组,由该专利群组建立一引证网络,其中该引证网络中具有多个连结,每一连结由具有引证关系的任两专利案件所建立而成,再选择该引证网络中的一聚落。以选择出的聚落作为后续处理的基础。
请参阅图2所示,该图为本发明的建立引证网络第一实施例示意图。建立的方式首先以步骤200根据至少一检索条件于一数据库中寻找出一专利群组,其具有多个专利案件。在本步骤中,该数据库可为各个国家知识产权局中所具有的专利数据库,例如:美国专利数据库或者是欧盟专利数据库等;此外,该数据库也可以为商用软件所建立的数据库,例如:Delphion专利数据库等,但不以此为限。在步骤20中,该检索条件可以包括有关键词(keyword)、国际分类码(International patent classification,IPC)、申请号(applicationnumber)、公开号(publication number)、公告号(issue number)、申请人(applicant)、发明人(inventor)或前述的任意组合等,但不以此为限制。该关键词可为预先存储的一关键词列表。
步骤20执行之后的结果,如图3A所示,该图为根据一关键词所得到的检索结果示意图。检索之后所得的多个专利案件的组合,即为该专利群组S。要说明的是,虽然图3A中所列举的为美国专利公告号,但是每一个专利案件可以为专利申请案的公开案或者是获准专利的公告案,而且不以美国专利为限。但目前免费的专利数据库中只有美国公告专利数据库中的专利全文数据才具有完整引证数据,因此,本发明所提出的方法目前仅适用于已经公告的美国专利。
再回到图2所示,步骤200之后,接着进行步骤201,判断该专利群组S是否为适当的群组。
判断方式之一为根据该专利群组S所含有的专利案件数量是否适当,如果太少的话,则代表可能在步骤200中,所采用的检索条件并不适当,因此需要再回到步骤200重新界定检索条件,再重新检索。即,预先设定一案件数量,判断检索得到的专利案件数量是否达到该预先设定的案件数量,如果未达到,改变检索条件,重新检索,如果达到,执行后续步骤。该改变检索条件的步骤可包括在关键词列表中选取另一关键词,或直接选取关键词外的其他检索条件及其组合。
另外一种作法是首先预先建立一个“稽核组”(benchmark set),稽核组包含了至少一件已经确知相关的目标专利案件P,然后在每次调整检索条件、判断“检索结果是否适当”时,都检查检索到的专利群组是否有不正确的排除或过滤掉“稽核组”里的专利。如果排除或过滤掉该“稽核组”里的专利,视为应该调整检索条件。目标专利案件P,可以为专利申请案的公开案或者是获准专利的公告案。
请参阅图2A为本发明的专利数据挖掘***100的功能结构模块图。
具体的说,在这一实施例中,该专利群组获取单元11中进一步包括一更新单元111以执行步骤201,该更新单元111用于判断检索到的该专利群组是否包含该目标专利案件(和/或判断检索到的该专利群组是否达到预定的案件数量范围),如否,则调整该检索条件,重新产生一专利群组,直到所产生的专利群组包括该目标专利案件(和/或达到预定的案件数量范围)。
例如,以图3B的斜线范围A来代表最理想的专利群组。如果使用不正确的检索条件,则可能得到如C或D的范围所代表的专利群组,如此便会遗漏若干的专利。如果检索条件适当的话,则可以得到如区域B或E的范围所涵盖的专利群组,则可以将范围A包含在内。
再回到图2所示,如果该专利群组S被判断是适当的,则以步骤202,根据图3A的检索结果,可以于该专利群组中所具有的每一个专利案件的内容所引用的公开案或者是公告案,以及审查委员在审查过程中所提列的相关现有技术所形成的引证关联性,在有引证关系的两专利案件间建立一连结以形成一引证网络。当专利A被专利B引用时,基本上专利A的某种信息(a piece ofknowledge)对专利B而言是“相关”的,例如可能A是B的改良、或是对于相同的问题,A采用了和B不同的作法。从“信息流”(information flow)的角度来看,可以想象该“a piece of knowledge”从专利A“流向”专利B。因此用连结来表示的话,专利A和专利B是两个节点(node),而A与B的连结是用从A到B一个箭头(arrow)来表示,代表了“a piece of knowledge”从A“流向”B。请注意到,前述的“引证关系”可以是采用所谓的前向引证(forward citation)或是后向引证(backward citation)二者其中之一。
如图4A至图4C所示,该图为引证网络示意图。根据图3A的检索结果,利用步骤202得到的引证网络包含有多个聚落(cluster),本实施例为三个(图4A至图4C)。聚落中的任二专利案件必然有直接或间接的引证关系。再回到图2所示,接着以步骤203,由该引证网络所包含的聚落中,根据每一个聚落所含有的专利案件数、或者是否有包含目标专利案件P以选择适当的聚落。
例如,以目标专利案件P为US.Pat.No.4,310,211为例,在该多个聚落中选择适当的聚落作为引证网络时,主要有几种情况:第一种为目标专利案件P完全不在任何聚落内,例如在图4A至图4C中完全找不到目标专利案件P。
第二种为目标专利案件P确实属于其中之一聚落,但该聚落的专利数量很少,例如,图4B与图4C都是数量小的聚落。第三种即为目标专利案件处于适当大小的聚落中,如图4A的聚落所示。如果是属于第一种与第二种的情况,则表示检索条件不适当,因此需要再重新回到步骤20进行检索。由于在本实施例中,目标专利案件P并没有出现在图4B与图4C中的聚落中,因此可以剔除图4B与图4C的聚落,将被评价的而目标专利案件P所在的聚落大小适当,因此以含有该目标专利案件P的聚落(如图4A所示)作为引证网络。由于目标专利案件P并没有出现在图4B与图4C中之中,因此可以剔除图4B与图4C,而以图4A作为接下来分析的依据。请注意到引证网络可以包含一或多个聚落,而聚落也可以视为是一引证网络里的一个子网络(sub-network)。换言之,一个聚落本身也是一子网络。在本说明书中,“子网络”与“聚落”二词其实是同义的。
图2B为本发明的专利数据挖掘***100的功能结构模块图。
在该实施例中,该引证分析单元12进一步包括一聚落选择单元123,该聚落选择单元123用于根据一选择条件,从该专利群组形成的多个聚落中选择一个,该选择条件包括一专利案件数量和/或一目标专利案件,该聚落选择单元选择符合该专利案件数量的聚落,和/或,选择包含该目标专利案件的聚落。
再回到图1G所示,步骤20选择至少一适当的聚落之后,接着以步骤21给予该聚落中的每一连结一权重值。在步骤21中,给予权重的方式有很多种,例如,每一个连结的权重值都为1,或者是以搜寻路径连结记数法(search pathlink count,SPLC)或者是搜寻路径节点对法(search path node pair,SPNP)来计算每一个连结所具有的权重。
在一具体实施例中,如图2B所示,该引证分析单元12包括一搜寻路径连结记数单元121或者一搜寻路径节点对单元122(图中未示),该搜寻路径连结记数单元121用于根据搜寻路径连结记数法为每个连结赋予权重值,该搜寻路径节点对单元122用于根据搜寻路径节点对法为每个连结赋予权重值。
请参阅图5A与图5B所示,该图分别为利用SPLC或者是SPNP给予连结权重示意图。首先说明SPLC的方式,在图5A中,对于连结90而言,在连结90的右侧有两个节点A与B(每一个节点代表专利公告案或者是专利公开案);而在连结90的左侧可以达到四个节点E、G、I与J,因此该连结90的权重为4x2=8。此外,如图5B所示,以SPNP来计算连结91的权重时,对于连结91的节点D而言,其右端有三个节点A~C可以经过连结91抵达节点D,而对节点C而言,其可经过连结91抵达七个节点D~J,因此连结91的权重为3x7=21。步骤21所计算出的权重结果如图6所示。
再回到图1所示,接着,以步骤22根据每一连结所具有的权重值,计算挑选出的适当的聚落S’中关于每一个专利案件所具有的一中心性指标。
本实施例的中心性指标为特征向量中心性(eigenvector centrality,EC)。由于专利引证所形成的引证网络可以视为一种广义的社会网络(socialnetwork),而中心性(centrality)是社会网络分析中一个相当重要的概念,用来衡量网络中每一个节点的重要性。而本实施例所使用的特征向量中心性,其可以应用到有方向性以及有权重的网络中。而特征向量中心性具有独特的特性,亦即节点的重要性与所有指向的节点所具有的重效性成正比,例如,在专利引证网络中,被一个重要专利引用的专利,则其重要性也会大幅增加。因此,中心性高的专利,并非由引证数(citation count)决定,而是由该专利在引证网络中的位置重要性来决定。
接下来说明中心性指标获取单元13如何计算该中心性指标的方法。特征向量中心性的概念说明如下,假设有一n个节点的网络,其具有连结所构成的权重矩阵A。在矩阵A中的每一个元素Ajk代表节点k指向节点j的权重。在矩阵中,对角线的元素皆为零。再假设有一n元素的向量I,其中向量I中的每一个元素Ij代表对应的节点j的重要性(rank score)。由于特征向量中心性(EC)的概念在于每一个节点的重要性应该与指向该节点的所有节点重要性乘上相对应连结的权重后而成一比例关系,如下式(1)所示:
c · I j = Σ k A jk · I k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ( 1 )
其中,c代表一比例常数,将式(1)以矩阵符号表示,即成为如式(2)所示:
c·I=A·I.......................................(2)
由式(2)可以看出,c是矩阵A的特征值(eigenvalue),而I为特征向量(eigenvector)。根据式(2)可以得到n个解,而其中最大的特征值对应的特征向量I具有指标意义。根据上述的说明,以图6所建立的具有连结权重的聚落S’为例,式(2)中的特征向量I即为代表每一个代表专利案的节点所形成的向量矩阵。而矩阵A中的每一个元素Aij,则代表图6中,节点i所指向出去到节点j的连结92所具有的权重,该矩阵A中的对角线的元素,则代表节点指向自己,因此为零。
要计算式(2)时,通常利用迭代法求解,亦即先给特征向量I内所有元素一个初始值。由于矩阵A中的元素为已知,如图6中每一个连结所对应的值,因此可以计算出特征值c。再调整下一个特征向量I内所有元素所具有的值,利用迭代反复进行运算,直到特征向量I收敛至一固定值为止。由于每一个收敛到固定值的特征向量I都会对应到一个特征值c,因此再由该多个特征值c中所具有最大的特征值所对应的特征向量I内每一个元素所对应的值(中心性指标),作为图6中每一个节点所具有的价值或重要性。由于经过式(2)求解出来的特征向量I所具有的值,可以对应到每一个节点(专利)所具有的重要性或价值,如此一来即可得知每一个节点相对于该聚落S’所具有的相对价值与重要性。
再回到图1G所示,步骤22之后,还包括步骤23,利用该自动评价与识别单元14判断是否有专利案件具有已知价值(即,在存储器中查找是否有关于专利群组中的专利案件的相关价值记录),如果没有的话,则以步骤24计算聚落中所具有的一目标专利案件所具有的中心性指标于该聚落中的一相对评价指标。如图7所示,该图为相对价值示意图。例如:特征向量I内的所有元素所对应的值可以建立出一个百分等级(percentile rank,PR)表。该列表呈现出在聚落中,每一个专利的落点位置,因此由该表可以得知,目标专利案件所具有的中心性指标值以及落点位置,进而可以评断该目标专利案件对于该聚落所具有的重要性。换句话说,对于目标专利案件P所具有的中心性指标值在聚落中所有的中心性指标值的分布,例如:目标专利案件的特征向量中心性值是位于前10%,而可以有一个客观的评价,代表目标专利案件在引证网络中所代表的相对重要性或价值,即,认定位于前10%的专利案件为目标数据。反之,如果在步骤23中,如果有专利案件具有已知确定价值,则可以步骤25利用该目标专利案件的中心性指标与该具有确定价值的专利案件间中心性指标值的比例,计算该目标专利案件所具有的价值,即,该目标专利案件相对该具有确定价值的专利案件的价值倍数。
前面所述的专利评价方法中的步骤20~25能藉由计算机程序存于一储存媒体中,且当计算机程序加载计算机执行时,可以实现本发明的专利数据挖掘方法。该计算机可以为服务器、工作站或者是个人用的桌上型或笔记型计算机。储存媒体可以为光盘、硬盘或者内存等。
如前所述,本发明提出的方法中步骤20中的步骤200~203在以检索方式找出专利群组、建立引证网络、以及选择其中适当的聚落。其间并以数量、或是是否包含目标专利案件的方式来作调整、选择的依据。在本发明的另一实施例中,步骤20决定聚落的方式则是直接从至少一目标专利案件展开形成聚落。例如图8A所示从目标专利案件P一阶展开所形成的聚落G1,也就是包含了目标专利案件P、所有目标专利案件P所直接引用的专利案件300~302(所谓的后向引证)、所有直接引用目标专利案件P的专利案件303~305(所谓的前向引证)三者的集合。图8B所示从目标专利案件P二阶展开所形成的聚落G2,也就是对一阶所形成的聚落G1里的每一专利案件300~305,再做至少一阶前向与后向展开所形成的专利案件300~327的集合。
另外一种实施方式是,如图8C所示,在作第二阶展开时,对目标专利案件P的每一后向引证专利案件300~302,纳入其至少一阶之后向引证专利案件306、308、312~315(但不纳入其前向引证案);而对目标专利案件P的每一前向引证专利案件303~305,纳入其至少一阶之前向引证专利案件318、319、321、323、324、326与327(但不纳入其后向引证案)。此一实施方式有如涟波一般的向外展开以形成聚落G3。
如上所述,不论采用何种展开方式,本实施例可以从至少一目标专利案件,进行多阶展开后所形成的聚落作为后续分析的依据。步骤22~25则与先前实施例完全相同,在此就不赘述。
在获得每个专利案件的中心性指标后,自动评价与识别单元14还用于根据一预设阈值对该引证网络中的各个中心性指标进行判断,认定达到该预设阈值的中心性指标所对应的专利案件为目标数据,从而实现数据挖掘。其可以在后续的显示过程中对该目标数据进行特别标识。
例如,认定图7所示附图中,位于前10%(0.9-1.0)的为目标数据。或者,分别判断得到的每一个中心性指标是否达到一预设阈值。如果是,认定其为目标数据。
另外,本发明的图像转换单元15可进一步通过显示设备对引证网络进行图形化的显示。即,图像转换单元15将引证网络转换为一引证树,例如为星形树,并通过GUI以图形方式进行显示。同时,在该图形化显示的引证网络中,对通过前述步骤挖掘出的目标数据做特别标识。
具体的,在步骤20之后的任意时刻,图像转换单元15接收引证分析单元12分析获得的专利案件的连结数据。
图像转换单元15包括一节点生成模块,用于根据引证分析单元12分析获得的连结数据,将其中所提到的每一专利案件转换为专利节点数据结构。
图像转换单元15还包括一引证树生成模块,用于由节点及节点间的连结数据组成专利引证树。节点间连结数据例如是指向子节点ID的指针或游标,在专利引证树中为一连接两节点的连线。
该专利引证树包括多个节点数据结构,每一节点数据结构包含一标志该节点唯一性的ID,且每一节点数据结构包含一子节点连结指向其子节点。节点所指向的子节点是当前专利所引证的专利,而指向当前节点的父节点是引证当前专利的专利。
该专利引证树显示的效果可参考图4A所示。
同时,对于之前通过数据挖掘得到的目标数据,可通过高亮度、放大字体、增加特别标记的方式,显示其为重要程度较高的专利案件。使得使用者可以直观的获得在检索得到的专利群组中的目标数据。
本发明实现的技术效果在于,显示专利案件间的引证关系,并基于该引证关系对专利群组得到每一专利于专利案件间的引证关系所具有之一相对重要性或价值。
本发明进一步实现的技术效果在于,进行自动的数据挖掘,获得目标数据。特别是可以实现对专利案件的批量处理,自动定位目标数据,从而提高数据处理的效能。
以上所述,仅为本发明的实施例,当不能以之限制本发明范围。即大凡依本发明申请专利范围所做的均等变化及修改,仍将不失本发明的要义所在,亦不脱离本发明的精神和范围,故都应视为本发明的进一步实施状况。

Claims (11)

1.一种专利数据挖掘***,其特征在于,包括:
专利群组获取单元,用于获取一专利群组;
引证分析单元,用于分析该专利群组的各个专利案件之间的引证关系以建立一引证网络,该引证网络具有多个连结,每个该连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,该引证分析单元于该引证网络中获取一聚落,为该聚落中所具有的每个连结赋予一权重值;以及
中心性指标获取单元,用于根据每个该连结所具有的权重值,计算该聚落中每个专利案件的中心性指标。
2.如权利要求1所述的***,其特征在于,该引证分析单元包括一搜寻路径连结记数单元或者一搜寻路径节点对单元,该搜寻路径连结记数单元用于根据搜寻路径连结记数法为每个连结赋予权重值,该搜寻路径节点对单元用于根据搜寻路径节点对法为每个连结赋予权重值。
3.如权利要求1所述的***,其特征在于,该中心性指标为特征向量中心性。
4.如权利要求1所述的***,其特征在于,该引证分析单元进一步包括:
聚落选择单元,用于根据一选择条件,从该引证网络形成的多个聚落中选择一个,该选择条件包括一专利案件数量或者一目标专利案件,该聚落选择单元选择符合该专利案件数量的聚落,或者,选择包含该目标专利案件的聚落。
5.如权利要求4所述的***,其特征在于,该***还包括有一自动评价与识别单元,用于评价该目标专利案件所具有的该中心性指标于该聚落中的一相对评价指标,该相对评价指标指该目标专利案件所具有的该中心性指标的百分等级。
6.如权利要求4所述的***,其特征在于,该***还包括一自动评价与识别单元,利用该目标专利案件的该中心性指标与该聚落中的一具有确定价值的专利案件间的该中心性指标的比例,计算该目标专利案件所具有的价值。
7.如权利要求4所述的***,其特征在于,该专利群组为根据至少一检索条件于一数据库中寻找出的包含多个专利案件的集合。
8.如权利要求7所述的***,其特征在于,该专利群组获取单元进一步包括更新单元,该更新单元判断检索到的该专利群组是否包含该目标专利案件,如否,则调整该检索条件,重新产生一专利群组,直到所产生的专利群组包括该目标专利案件。
9.如权利要求4所述的***,其特征在于,该专利群组为由该目标专利案件至少一阶前向引证展开、以及至少一阶后向引证展开所形成的集合。
10.如权利要求9所述的***,其特征在于,该目标专利案件直接或间接后向引证的一专利案件展开时,该专利群组仅包含该专利案件后向引证的专利案件;或者,该目标专利案件直接或间接前向引证的一专利案件展开时,该专利群组仅包含该专利案件前向引证的专利案件。
11.一种专利数据挖掘方法,应用于权利要求1所述的***中,其特征在于,至少包含下列步骤:
利用专利群组获取单元获取一专利群组;
利用引证分析单元分析该专利群组的各个专利案件之间的引证关系以建立一引证网络,该引证网络具有多个连结,每个该连结均根据该专利群组中具有引证关系的两专利案件间的引证关系而形成,该引证分析单元于该引证网络中获取一聚落,并为该聚落中所具有的每个连结赋予一权重值;以及
利用中心性指标获取单元根据每个该连结所具有的权重值,计算该聚落中每个专利案件的中心性指标。
CN2010102275015A 2010-07-12 2010-07-12 专利数据挖掘***及方法 Pending CN102331987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102275015A CN102331987A (zh) 2010-07-12 2010-07-12 专利数据挖掘***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102275015A CN102331987A (zh) 2010-07-12 2010-07-12 专利数据挖掘***及方法

Publications (1)

Publication Number Publication Date
CN102331987A true CN102331987A (zh) 2012-01-25

Family

ID=45483766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102275015A Pending CN102331987A (zh) 2010-07-12 2010-07-12 专利数据挖掘***及方法

Country Status (1)

Country Link
CN (1) CN102331987A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336851A (zh) * 2013-07-24 2013-10-02 江苏大学 一种专利文献模型树构建方法
CN105677726A (zh) * 2015-12-29 2016-06-15 上海律巢网络科技有限公司 一种数据检索及结果呈现方法与***
CN105677907A (zh) * 2016-02-16 2016-06-15 大连理工大学 一种专利技术演化分析方法及***
CN105677727A (zh) * 2015-12-29 2016-06-15 上海律巢网络科技有限公司 数据检索及检索结果呈现方法和***
CN106504084A (zh) * 2016-11-16 2017-03-15 航天信息股份有限公司 一种用于识别供应链中核心企业的方法及***
CN106940823A (zh) * 2016-01-04 2017-07-11 冠研(上海)专利技术有限公司 利用人工智能进行专利鉴价的方法
CN109614465A (zh) * 2018-11-13 2019-04-12 中科创达软件股份有限公司 基于引证关系的数据处理方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181427A1 (en) * 1999-02-05 2004-09-16 Stobbs Gregory A. Computer-implemented patent portfolio analysis method and apparatus
CN101482876A (zh) * 2008-12-11 2009-07-15 南京大学 基于权重的链接多属性的实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181427A1 (en) * 1999-02-05 2004-09-16 Stobbs Gregory A. Computer-implemented patent portfolio analysis method and apparatus
CN101482876A (zh) * 2008-12-11 2009-07-15 南京大学 基于权重的链接多属性的实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈仕吉: "科学研究前沿探测方法综述", 《现代图书情报技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336851A (zh) * 2013-07-24 2013-10-02 江苏大学 一种专利文献模型树构建方法
CN105677726A (zh) * 2015-12-29 2016-06-15 上海律巢网络科技有限公司 一种数据检索及结果呈现方法与***
CN105677727A (zh) * 2015-12-29 2016-06-15 上海律巢网络科技有限公司 数据检索及检索结果呈现方法和***
CN106940823A (zh) * 2016-01-04 2017-07-11 冠研(上海)专利技术有限公司 利用人工智能进行专利鉴价的方法
CN105677907A (zh) * 2016-02-16 2016-06-15 大连理工大学 一种专利技术演化分析方法及***
CN106504084A (zh) * 2016-11-16 2017-03-15 航天信息股份有限公司 一种用于识别供应链中核心企业的方法及***
CN109614465A (zh) * 2018-11-13 2019-04-12 中科创达软件股份有限公司 基于引证关系的数据处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN102331987A (zh) 专利数据挖掘***及方法
Barndorff-Nielsen et al. Modelling electricity futures by ambit fields
CN111708934B (zh) 知识内容的评价方法、装置、电子设备和存储介质
Verity et al. minotaur: A platform for the analysis and visualization of multivariate results from genome scans with R Shiny
CN107545038A (zh) 一种文本分类方法与设备
CN102629272A (zh) 一种基于聚类的考试***试题库优化方法
CN101192220B (zh) 适用于资源搜寻的标签建构方法及***
Costa-Neto et al. Envirome-wide associations enhance multi-year genome-based prediction of historical wheat breeding data
Xu et al. A novel ensemble credit scoring model based on extreme learning machine and generalized fuzzy soft sets
CN106097094A (zh) 一种面向中小企业的人机结合信贷评估新模型
Dong Application of Big Data Mining Technology in Blockchain Computing
CN103279549B (zh) 一种目标对象的目标数据的获取方法及装置
CN116993433B (zh) 一种基于大数据的互联网电商异常用户检测方法
CN103207804A (zh) 基于集群作业日志的MapReduce负载模拟方法
Huang et al. Pareto approach for DEA cross efficiency evaluation based on interval programming
KR20210097204A (ko) 정보를 출력하는 방법 및 장치
CN105184170A (zh) 一种基于形式化程度的领域软件可信性评估方法
WO2022217712A1 (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN116306769A (zh) 一种含对抗生成网络的贝叶斯优化方法及***
CN106980989A (zh) 基于用户行为特性分析的商户推荐方法
CN112529303A (zh) 基于模糊决策的风险预测方法、装置、设备和存储介质
Shahpazov et al. Generalized net model of internal financial structural unit’s functionality with intuitionistic fuzzy estimations
Yang et al. A unified unit root test regardless of intercept
Bernardo Júnior et al. AMMI-Bayesian models and use of credible regions in the study of combining ability in maize
CN107230005B (zh) 一种数据处理方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120125