CN102792262B - 使用权利要求分析排序知识产权文档的方法和*** - Google Patents

使用权利要求分析排序知识产权文档的方法和*** Download PDF

Info

Publication number
CN102792262B
CN102792262B CN201180008432.1A CN201180008432A CN102792262B CN 102792262 B CN102792262 B CN 102792262B CN 201180008432 A CN201180008432 A CN 201180008432A CN 102792262 B CN102792262 B CN 102792262B
Authority
CN
China
Prior art keywords
group
ipc
candidate
inquiry
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180008432.1A
Other languages
English (en)
Other versions
CN102792262A (zh
Inventor
S.维拉马查内尼
G.奎克
A.瓦奇赫
W.廖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Enterprise Centre GmbH
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of CN102792262A publication Critical patent/CN102792262A/zh
Application granted granted Critical
Publication of CN102792262B publication Critical patent/CN102792262B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于在专利检索***中重排序搜索结果的方法和***,其中查询文本全部或部分地来源于专利权利要求,所述专利权利要求可来自于现有的专利或预期的权利要求。所述重排序基于候选专利的若干特征,诸如与所述权利要求的文本相似度、国际专利分类号或其他分类或主题关联性或重叠以及候选者的内部引用结构。一个备选方面提供了基于自动生成的训练数据来训练的重排序器,由此避免了昂贵且花费时间的专家评注步骤。

Description

使用权利要求分析排序知识产权文档的方法和***
技术领域
本发明大体上涉及自然语言处理、信息检索并且更具体地涉及确定文档内的术语的相关性。本发明涉及术语或文档的其他方面的统计加权以确定所述术语或方面与该文档、尤其是与该文档的内容如何相关或对其如何重要。此外,本发明涉及供与法务、企业及其他专业领域相关的服务传递使用的过程、软件和***。本发明涉及这样的***,其向诸如与专业服务相关的服务的订户的用户提供搜索功能、处理搜索术语并且跨文档数据库应用搜索语法,以及显示响应于所述搜索功能和处理而生成的搜索结果。
背景技术
随着印刷机、排版、打字机、计算机实现的字处理和海量数据存储装置的出现,由人类生成的信息的量已经显著地并且以日益加速的步伐上升。结果,对收集和存储、识别、追踪、分类和编目以检索和发布这种不断增长的海量信息有持续且不断增长的需要。对例如书籍和其他文字作品的信息进行编目和分类的一种传统形式是杜威十进制***。在专利领域中,仅在美国就已经公告了上百万的专利。每个专利被公告为具有一组权利要求,其限定了由美国授权并且由专利权人拥有的产权。除了公告的专利之外,目前可得到的用于搜索和查看的已公开专利申请的数量也在不断增长。每个已公开的专利申请同样地包含对该发明的一个或多个权利要求。美国专利局使用基于主题的分类***按本领域的技术中心、分类和子分类放置所提交的专利申请以更高效地处理专利权利要求的搜索及授权或者驳回。此外,一组国际专利分类号进一步按主题对专利和申请进行分类。历史上,被指派来审查专利申请的审查员将查阅“鞋(shoes)”,即与特定子分类相关联并且包含基于由先前的发明人所公开和要求权利的主题而被分在一组的专利集合的盒子。在电子搜索之前,审查员将手动查阅所述鞋以努力找到现有技术,这是非常乏味、耗时并且低效的。电子数据库有效地将专利文档放置在电子“鞋”中以供搜索。
在许多领域和行业中,例如包括金融和法律领域以及技术领域,存在内容和增强体验提供商,诸如汤森路透公司(The Thomson Reuters Corporation)。这样的提供商识别、收集、分析和处理供生成内容使用的关键数据,所述内容诸如为法律相关的报告、文章等等,供专业人员以及例如律师等在相应行业中所涉及的其他人员消费。各个领域和行业中的提供商不断寻找产品和服务来提供给订户、客户及其他顾客,并且寻找使他们的公司在竞争中与众不同的方法。这样的提供努力创建和提供增强工具,包括搜索和排序工具,以使客户能够更高效和有效地处理信息并且做出知情的决定。
例如,随着跨例如已公告的专利、已公开的专利申请的数据库等大量数据和文档进行搜索的技术和复杂方法的进步,专业人员及其他用户在做出专业和商业决定时越来越多地依赖于数学模型和算法。例如用于跨专利文档的大型数据库应用搜索术语的现有方法由于他们常常不充分地集中在所关心的关键信息上以产生一组集中的并且良好排序的文档来最接近地匹配所表达的搜索术语和数据,而具有相当大的改进空间。尽管这样的基于计算机的***具有缺点,但较之于手动搜索、识别、过滤和分组IP文档而言已有明显进步,手动搜索、识别、过滤和分组IP文档过于花费时间、成本高、效率低并且不一致。
搜索引擎被用于响应用户定义的查询或搜索术语来检索文档。为此,搜索引擎可对术语出现在一个文档中的频率与那些术语出现在数据库或数据库网络内的其他文档中的频率进行比较。这有助于搜索引擎确定文档内不同术语各自的“重要性”,并且由此确定与给定查询最匹配的文档。用于将出现在一个文档中的术语与文档集合比较的一种方法被称为术语频率-反文档频率(TFIDF)。在这个方法中,术语总数与主题文档内的所有术语相比较的百分率被赋值(作为分子),并且除以术语在其中出现的文档在文集中的百分比的对数(作为分母)。更具体地,TFIDF将权重赋值为用于评估词语对文档集合或文集中的一个文档的覆盖(tile)重要性的统计测量。覆盖词语的相对“重要性”与覆盖次数或这样的词语出现在文档中的“频率”成比例地增加。将重要性与该词语出现在包括文集的文档中的频率相抵消或比较。TFIDF被表达为log(N/n(q)),其中q是查询术语,N是集合中的文档的数量,而N(q)是包含q的文档的数量。TFIDF及这种加权方案的变型通常被诸如谷歌的搜索引擎在给定用户查询的情况下用作评分和排序文档的相关性的方法。一般地,对于包括在用户查询中的每个术语而言,可基于对与每个术语相关联的分数求和而就相关性对文档排序。可基于相关性及其他确定因素将响应于用户查询的文档排序并且呈现给用户。
发明内容
本发明提供了用于重排序专利文档检索***中的搜索结果的方法和***,其中查询文本全部或部分地来源于专利权利要求,所述专利权利要求可来自于现有的专利。该重排序基于候选专利的一个或多个特征,诸如与所述权利要求的文本相似度、国际专利分类号或其他分类关联性或重叠以及候选者的内部引用结构。本发明的一个特征提供了基于自动生成的训练数据来训练的重排序器,由此避免了昂贵且花费时间的专家评注步骤。在实现中,可自动地或半自动地,即以某种程度的人工干预来执行本发明的概念。
发明人、专利审查员、代理人和律师需要可靠的专利检索***来例如调查现有技术、研究专利权利要求的有效性或者为诉讼做准备。专利检索更为特殊和专业化并且例如在下列方面不同于一般的网络搜索:1) 查询文本-专利检索中的查询经常是权利要求,其具有某种固定结构并且可能非常长,而典型的基于网络的搜索查询是非常短的,包括很少的术语;2) 专利文档-专利通常具有标准结构,其包括诸如名称、作者、申请日、IPC(国际专利分类号(IPC))、引用、摘要、技术概要和权利要求等字段,而网络文档可能具有各种格式和内容;以及3) 搜索目的-专利检索的主要目的是找到与被搜索专利相关的现有专利,例如可使指定的专利或专利申请的权利要求无效的现有专利,而网络搜索的目标为找到相关的文档或回答用户问题。考虑到这些区别,与典型的基于网络的搜索引擎和***相关联的信息检索算法不是很好地适用于为专利检索工作。
现有方法以不同方式修改基线信息检索算法。一些方法修改术语加权策略,例如使用TF(术语频率)来代替TF-IDF(术语频率-反文档频率)(H. Mase和M. Iwayama. 2007. 日立的Ntcir-6专利检索实验. NTCIR-6研讨会纪要,第403-406页);一些方法研究统计语言模型中的平滑效果(J. Kim、Y.H. Lee、S.H. Na和J.H. Lee. 2007. ntcir-6英文专利检索子任务中的浦项科技大学. NTCIR-6研讨会纪要,第393-395页);一些方法使用查询扩展策略(Y.H. Tseng、C.Y. Tsai和D.W. Huang. 2007. 使用不同专利代理对美国专利商标局专利文档的无效搜索. NTCIR-6研讨会纪要,第390-392页;H. Tanioka和K. Yamamoto. 2007. 使用查询扩展和强调的通路检索***.NTCIR-6研讨会纪要,第428-432页;H. Nanba. 2007. 使用自动构造的词库的查询扩展. NTCIR-6研讨会纪要,第414-419页;Mase和Iwayama,2007);并且一些方法运用诸如专利的引用和IPC的特定字段(Atsushi Fujii. 2007. 通过引用分析增强专利检索. 第30届ACM信息检索研究和发展(SIGIR)国际年会纪要,第793-794页;M. Aono. 2007. 为专利检索运用基于类别的lsi. NTCIR-6研讨会纪要, 第373-376页)。可被采用的另外的方法可使用潜在语义索引(LSI)或其他潜在语义分析。这些方法或者需要进行大量计算或者显示较之于基线的有限改进。本发明提供了用于确定、检索和呈现与基于专利权利要求的查询最相关的一组专利的方法。本发明既能被用于对现有技术的调查也能被用于对现有或预期的权利要求的有效性的确定。在一个实施例中,本发明使用基于基线文本的检索***来得到初始的候选专利池,进而基于例如来源于所述候选专利的权利要求文本、名称、摘要、前序、IPC中的一个或多个以及它们的内部引用结构的若干特征来重排序所述初始的候选专利池。本发明的另一特征是用于训练重排序分类器的训练数据的自动生成。
在过去,已针对专利检索提出了不同的检索方法。Kim等人(Kim等人, 2007)使用带有Jelinek-Mercer平滑的基线语言模型来进行专利检索。基于他们的结果,平滑是否有助于检索性能是不确定的。Fujii(Fujii, 2007)结合两个搜索,一个搜索基于使用Okapi BM25(S. Robertson、S. Walker、S. Jones、M.M. Hancock-Beaulieu和M. Gatford. 1994. Okapi at trec-3. 第三届文本检索大会纪要,第109-126页)的文本检索,而另一个搜索基于引用,其中基于来自于文本检索的前N个文档的引用来计算引用得分。这两个得分的乘积被用于最终排序。
两阶段专利检索方法由Mase等人提出(H. Mase、T. Matsubayashi、Y. Ogawa、M. Iwayama和T. Oshio. 2005. 考虑权利要求结构的两阶段专利检索方法的提议. ACM亚洲语言信息处理学报(TALIP),4(2): 190-206)。在阶段一,使用标准信息检索方法,其中将专利的整个文本用作检索对象。在阶段二,仅将权利要求文本用于重排序来自于第一阶段的前N个专利,其中相关性得分基于使用不同加权策略的一组选择性的权利要求术语。最终的相关性得分是来自这两个阶段的得分的线性组合。在另一篇论文中(Mase和Iwayama,2007),Mase等人比较若干检索方法,其中所述方法使用不同的术语加权策略、查询扩展策略和文档过滤策略。这些方法显示了较之于基线方法的改进,但由于对整个专利文本和术语选择的使用而导致需要进行大量计算。
查询扩展是改进专利检索的另一种尝试。Tseng等人(Tseng等人,2007)使用选自初始检索中的前6个文档的一些关键术语来扩展权利要求查询。Nanba(Nanba, 2007)使用下义词、缩写词、同义词和有关术语来扩展查询。Aono(Aono, 2007)针对专利检索提出了基于类别的潜在语义索引(LSI)方法。具体而言,他们的算法首先基于IPC(国际专利分类)将整个专利集合分类成各类别,随后对每个类别反复地应用LSI。并且在给定查询权利要求的情况下,与其最相似的类别中的前50个专利作为无效候选被返回。
与现有方法相比,除其他优点以外,本发明提供了下列优点:1) 通过机器学习来自动学习排序模型,已知***试探性地结合来自于多个源的不同排序结果;2) 自动生成训练数据,即使没有消除昂贵且花费时间的人工相关性判断步骤,也极大地减少了这样的步骤;以及3) 有效并且可高效计算的特征组。在一种实现中,本发明提供了以毫秒级的速度显著地改进基线搜索的算法。
在一个备选实施例中,本发明提供了一种用于处理与专利权利要求术语相关的用户查询以生成响应于所述查询的一组专利文档的基于计算机的***,所述***包括:搜索引擎,其由计算机执行并且适于接收查询以及基于所述查询搜索包含在至少一个数据库中的专利文档的权利要求,并且适于产生第一组候选专利文档;以及重排序模块,其包括可由所述计算机执行的代码并且适于至少部分地基于与所述专利相关联的一组特征来重排序所述第一组候选专利文档以及生成第二组经排序的专利文档,所述重排序模块适于基于先前执行的学***均重叠得分,并且在专利具有低IPC-重叠得分的情况下,其可以被分配相对低的相关性得分。可基于先前执行的学习过程来配置所述重排序模块,其包括自动生成的训练数据,所述自动生成的训练数据被处理以建立将被分配给所述一组特征中的各个特征的相关性权重。所述学习模块可收集训练数据并且至少部分地基于所收集的训练数据为所述一组特征分配相关性权重。所述搜索引擎可包括适于产生所述第一组候选专利文档的基于基线文本的检索***。所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述搜索引擎处理以对包括在所述第一组候选专利文档中的专利进行划界(delimit)或加权。所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述重排序模块处理以对所述一组特征进行划界或加权。
在第二实施例中,本发明提供了用于接收和处理搜索查询并且向用户呈现搜索结果的方法,所述方法包括:接收包括表示专利权利要求搜索的术语的查询;使用搜索引擎从数据库中检索第一组专利文档,所述第一组专利文档中的每一个包括响应于所述查询的一个或多个权利要求;基于一组专利特征重排序所述第一组专利文档以生成一组经重排序的专利文档;以及为显示而从所述一组经重排序的专利文档生成响应于所述查询的权利要求的有序列表。
在还有第三实施例中,本发明提供了一种用于接收和处理搜索查询并且向用户呈现搜索结果的方法,所述方法包括:接收包括表示专利权利要求搜索的术语的查询;使用搜索引擎从数据库中检索一组专利权利要求,所述一组专利权利要求中的每一个响应于所述查询;排序具有来自所述一组专利权利要求的一个或多个权利要求的一组专利文档;使用一组专利特征重排序所述一组专利文档以生成一组经重排序的专利文档;以及为显示从所述一组经重排序的专利文档生成响应于所述查询的专利权利要求的有序列表。
在还有另一实施例中,本发明提供了在其上存储有将由机器执行以进行操作的指令的机器可读介质,所述指令包括用于下列操作的指令:呈现包括用于接收查询输入的输入框的图形用户界面屏幕;接收与专利权利要求术语相关的查询;针对与在包括专利文档的数据库中所表示的专利文档相关联的权利要求处理所述查询以生成响应于所述查询的一组候选专利文档;至少部分地基于一组专利特征重排序所述一组候选专利文档并且生成第二组经排序的专利文档;以及为查看而显示与所述一组经排序的专利文档相关联的图形用户界面屏幕。
附图说明
为了便于全面理解本发明,现在对附图进行参考,在附图中用相同的标号引用相同的元素。这些图不应被解释为限制本发明,而是旨在作为示例并且用于参考。
图1是示出用于实现本发明的示例性的基于计算机的***的示意图;
图2是示出实现本发明的示例性方法的搜索流程图的第一部分;
图3是示出实现本发明的示例性方法的搜索流程图的第二部分;以及
图4是示出本发明的实现的流程图;
图5是用于实现本发明的基于处理器的***的硬件配置的示意图;
图6是示出具有用于输入在处理本发明时所用的查询数据的一组域的示例性用户界面屏幕的屏幕截图;
图7是示出结合本发明的用于输入搜索数据并且启动搜索的示例性用户界面屏幕的屏幕的第一部分;
图8是示出结合本发明的用于输入搜索数据并且启动搜索的示例性用户界面屏幕的屏幕的第二部分;以及
图9是示出通过处理本发明所得到的搜索结果屏幕的屏幕截图。
具体实施方式
现在将参照如附图所示的示例性实施例来更详细地描述本发明。虽然此处参照示例性实施例来描述本发明,但应理解的是,本发明不限于这样的示例性实施例。具有本领域的普通技术并且可以理解此处的示教的那些人员将认识到另外的实现、变型和实施例以及本发明所适用的其他应用,这在此处被充分预计为包含在此处所公开和要求权利的本发明的范围之内,并且就此而言,本发明可具有显著的实用性。
本发明提供了用于专利文档搜索和检索的***。在一个示例性实施例中,在给定权利要求文本cq作为查询的情况下,本发明返回包含相似权利要求的专利文档并且基于相关性得分对它们进行排序。所述***适用于其中cq来自现有的专利文档,例如专利或专利申请,或者并不是现有已公告或待定的权利要求的应用。在一个示例性实施例中,本发明包括三个步骤:1) 基于cq的权利要求文本从权利要求的全域中检索一组权利要求;2) 重排序其权利要求在步骤1中被返回的专利;3) 返回来自经重排序的专利的最佳匹配的权利要求的有序列表。下面将在示例性实施例的上下文中更详细地描述这个过程。
“专利文档”如该术语在说明书中被使用的那样意指美国和非美国的专利以及已公开或披露的专利申请,并且还意指全部或部分地来源于这样的文档的文档。例如,美国专利包括下列字段、特征或术语,其可以是独立定义的可搜索字段:摘要;申请日;申请序列号;申请类型;专利权人所在城市;专利权人所在国家;专利权人姓名;专利权人所在州;助理审查员;代理人或代理机构;权利要求;说明/说明书;外国优先权;外国参考文献;政府利益;国际分类或IPC;发明人所在城市;发明人所在国家;发明人姓名;发明人所在州;公告日;其他参考文献;母案信息;专利号;专利类型;PCT信息;主审查员;再公告数据;名称;相关的美国申请数据;当前的美国分类;以及被引用信息。其他体系可使用包括专利文档的相似的或另外的字段。本发明允许用户构造查询以包括与权利要求相关的文本作为主要的或唯一的搜索术语。用户也可构造这样的查询,即除了权利要求文本查询术语之外,还包括另外的查询术语来特别地限制或增强诸如上文所列的那些的其他术语的重要性。以这种方式,用户可例如基于权利要求文本进行搜索并且将响应的一组专利文档缩窄至与特定的专利权人、发明人、IPC或其他分类、日期范围、公告日等相关的那些专利文档。以这种方式,由用于处理所述查询的搜索引擎产生的一组候选专利文档可以被减少或特别指出以适应用户的特定搜索需要或目标。在备选方式中,***可以被配置为允许用户输入和配置***,使得重排序模块对诸如上文所列的那些的特定专利相关字段进行划界或加权,或者在重排序过程中对与专利相关字段相关联的特征进行划界或加权。
根据本发明的一种实现,对于第一步骤,即对一组初始权利要求或一组初始候选专利文档的检索,使用无监督的基于学习的检索(ULR)算法,例如基于WIN搜索(Turtle, 1994)的算法。由于权利要求文本通常较长并且具有特定于域的性质,像WIN那样被设计用于一般信息检索的搜索引擎作为用于将最相关的权利要求或专利文档识别和返回为排在最前面的候选者的手段不是很有效,由此使重排序成为必须。在这个示例中,仅在查询中使用权利要求文本。然而,如在别处所描述的那样,另外的术语或步骤可被用于获得一组初始候选权利要求或专利文档。接着,重排序步骤包括对初始组中的每个专利的若干数值特征的计算,这将在下文中更详细地被解释。在一个实施例中,基于支持向量机(SVM)的排序器,例如(T. Joachims. 2002b. 使用点击链接型数据优化搜索引擎. ACM知识发现和数据挖掘(KDD)大会纪要,第133-142页)可被用于重排序候选专利文档。另外,可基于自动生成的数据、训练数据来训练排序模型,将在下文中详细解释训练数据的生成。
下面的讨论提供了对本发明的示例性实施例的特征提取方面的更详细的描述。在给定查询权利要求cq的情况下,例如WIN搜索引擎的搜索引擎被用于搜索搜索空间中的专利的所有单独的权利要求。在这个示例中,产生排在最前面的一组结果的专利,例如前100个中的专利被看作为候选池。对于候选池中的每个专利pi,计算一组特征。下面的示例描述用于计算的十个特征。这些特征充分利用了专利的不同字段,诸如名称、摘要、IPC、参考文献和权利要求。这些特征可包括下列示例性字段中的一些或全部:专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-c,其表示第一组候选专利中的专利的任何权利要求的最低排位;sim(c, c),其表示查询与第一组候选专利中的专利的权利要求之间的最高相似度得分;sim(c, cs),其表示查询与第一组候选专利中的专利的所有权利要求之间的相似度得分;sim(c, 名称),其表示查询与第一组候选专利中的专利的名称之间的相似度得分;sim(c, 摘要),其表示查询与第一组候选专利中的专利的摘要之间的相似度得分;sim(关键概念, 关键概念),其表示查询的关键概念与第一组专利中的专利的关键概念之间的相似度得分;sim(关键概念, 名称),其表示查询的关键概念与第一组专利中的专利的名称之间的相似度得分;sim(关键概念, 摘要),其表示查询的关键概念与第一组专利中的专利的摘要之间的相似度得分;IPC-重叠,其表示第一组专利中的专利的IPC分类号与第一组专利中的一组初始高排位专利的IPC分类号之间重复的IPC分类号的数量;以及直接引用,其表示所述一组初始高排位专利文档中引用第一组专利文档中的专利或被第一组专利文档中的专利引用的专利的数量。
例如,排位-c是0:9ri,其中ripi的任何权利要求在初始的WIN搜索中的最低排位。由于初始搜索不考虑单独的权利要求,因此pi可具有出现在排在最前面的一组结果中的若干权利要求。实施例可使用那些权利要求之中的最低排位来为pi计算特征。就sim(c, c)而言,这个特征是pi的权利要求与cq之间的最高相似度得分。这个特征根据由WIN搜索引擎提供的相似度得分将排位特征向上增大。可通过除以这个特征对于特定查询的最高得分而对该特征进行归一化。接着是sim(c, cs),其表示cqpi的所有权利要求之间的相似度得分。同样地,可通过最高得分对这个特征进行归一化。接着是sim(c, 名称),其表示cqpi的名称之间的相似度得分,其如上文所述那样被归一化。接着是sim(c, 摘要),其表示cqpi的摘要之间的相似度得分,其如上文所述那样被归一化。接着是sim(关键概念, 关键概念),其表示cq的关键概念与pi的关键概念之间的经归一化的相似度得分。通常,独立权利要求的起始句包含诸如下列各项的词语:包含、由…组成、包括、在于(in that)、听到等等。这些词语以及像它们那样的词语被称为标识符。标识符之前的词语通常指出权利要求的主题,其可被称为“关键概念”。专利的关键概念被定义为专利的第一权利要求的关键概念。
另一个术语是sim(关键概念, 名称),其表示cq的关键概念与pi的名称之间的经归一化的相似度得分。另一个术语是sim(关键概念, 摘要),其表示cq的关键概念与pi的摘要之间的经归一化的相似度得分。另一个术语是IPC-重叠。IPC-重叠特征基于pi的IPC与源专利组的IPC之间重叠的IPC的数量,所述源专利组例如可被定义为候选池中的前十个专利。为了计算IPC-重叠,优选的是首先定义两个IPC之间的重叠得分。在一个示例性的实例中,可基于结构将每个IPC分为三个级。例如,像A61K ¡009=02那样的IPC具有三个级A61K(级1)、A61K-009(级2)以及A61K ¡009=02(级3)。两个IPC之间的单级重叠给出例如为0.3的预定义得分。两个IPC的重叠得分是来自于三个级的得分的总和。例如,A61K ¡009=02与A61K ¡009=10之间的重叠得分是0.6,这是因为它们在级1和级2重叠。可将pi的IPC重叠定义为pi的IPC与所有源专利的所有IPC之间的平均重叠得分。这个特征基于下述假设:即源专利中的大部分所共有的IPC将反映查询权利要求的主题。因而,如果专利具有低IPC-重叠得分,则其不大可能是相关专利。将要讨论的下一个特征是直接引用,其与IPC-重叠的相似,这是因为直接引用表示引用pi或被pi引用的源专利的数量,用源专利的总数对其进行归一化。
本发明的这个优选实施例的下一个方面是自动生成训练数据。重排序器算法自动学习诸如上文所描述的那些的特征的重要性,以充分利用这些特征。在优选实施例中,训练数据被使用。可通过结果的人工评注来收集训练数据,但这是耗时且昂贵的过程。代替地,本发明包括自动生成训练数据的方法。第一步是被选择为一组目标专利的第一权利要求的查询的自动生成。通过WIN搜索引擎来运行这些查询以得到一组候选专利并且如上文所描述的那样计算这些候选专利的特征。可将训练“标签”分配给这些特征向量。
标签的生成依赖于知道查询权利要求从其中被选择的专利。所分配的国际专利分类号(IPC)和被引用的专利包含关于特定专利的丰富信息。优选实施例定义下列规则来判断候选专利p与目标专利ptarget的相关性。首先,如果p的IPC与ptarget的IPC匹配,并且引用ptarget或被ptarget引用,那么pptarget相关,并且被分配为A级。第二,如果p的IPC与ptarget的IPC匹配,但既没有被ptarget引用也没有引用ptarget,那么认为pptarget有些相关,并且被分配为C级。第三,如果p的IPC与ptarget的IPC不匹配,并且既没有被ptarget引用也没有引用ptarget,那么判断pptarget不相关,并且被分配为F级。在一种方式中,如果各IPC在第二级相同,则它们可以被定义为匹配。自动分配A级、C级和F级的过程不是无错的,但其显示了相对的相关性。只要具有更高等级的专利更有可能与目标专利相关,那么自动生成的训练数据就将令人满意地训练重排序模型。
基于世界知识产权组织,IPC(国际专利分类号)被分为八个部。在下面的实验性示例中,IPC的A部部分中的所有专利被用作整个搜索空间,其包括大约五十万个专利。对于每个专利而言,名称、IPC、摘要和权利要求是已知的。重要的是注意到本发明不需要使用专利的全文。在本实例中,从五十万个专利之中,随机选出10,000个专利来生成训练和测试数据。具体而言,在这个示例中,对于每个专利,第一权利要求被用于生成其候选专利并且使用下文所详细讨论的规则来自动为它们分配A/C/F级。没有产生任何A级的查询专利被放弃。在这个示例性测试中,查询中的79个被分离并且被用于测试,而剩余的查询被用于训练。数据组被平衡以具有大约相同数量的A级、C级和F级,但对C级和F级进行二次采样。总体来说,大约5,000个专利被选择作为目标,产生大约40,000个标记的特征向量。具有多项式(度=2)核的SVM-light(T. Joachims. 2002a. 使用支持向量机学习分类文本. 学位论文.Kluwer)被用在这个示例中以训练排序模型。
对79个测试查询权利要求进行重排序。对于这些测试查询,前5个搜索结果被发送给专利专家来分配A级、C级和F级,其中A意指非常相关,C意指有些相关,而F意指不相关。进而将该人工评级与下面自动生成的计算机评级比较。就计算机评级与人工评级的相似度而言,表1显示了对于大约600个候选专利在给定人工评级的情况下的计算机评级的条件概率。表1显示了当专家将专利判断为非常相关(人工评级为A)时,计算机评级很少为F;并且当专利被判断为不相关(人工评级为F)时,计算机评级很少为A。当专利被判断为有些相关(C)时,计算机评级很可能也为C。这表明计算机评级在区分非常相关、相关和不相关的专利时是可靠的。
P(计算机评级|人工评级) A C F
A 0.40 0.51 0.09
C 0.23 0.66 0.11
F 0.08 0.54 0.38
表1:计算机评级对比人工评级
接着,通过首先基于计算机评级将检索结果与基线WIN搜索相比较来检验该结果。在表2中,MAP(A)是当只有A专利被认为相关时的平均精确度,MAP(AC)是当A和C专利被认为相关时的MAP,prekA是当只有A专利被认为相关时排位k处的精确度,并且prekAC意指当A和C专利都被认为相关时排位k处的精确度。如表2所示,本发明的这个示例性实施例大体上比基线搜索表现更好。例如,本发明的方法将pre10AC从0.16提高到0.38,并且将pre5AC从0.72提高到0.85。MAP显示了38%的性能提高。
MAP(A) pre1AC pre5AC pre10AC
WIN 0.85 0.80 0.75 0.72
ULR 0.90 0.92 0.88 0.85
MAP(A) pre1A pre5A pre10A
WIN 0.47 0.23 0.16 0.14
ULR 0.65 0.58 0.38 0.28
表2:基于计算机评级的实验结果
表3显示了基于人工评级的结果。对于这个比较,用于人工评级的两组结果被发送,一组具有直接引用特征而一组不具有直接引用特征。只有前5个搜索结果由人类专家来评估。Pre1A和Pre5A表明直接引用有助于将更多的A级专利推送到前面。为了这个测试的目的,在给定人工评级与计算机评级如上文所示的那样匹配良好这一事实的情况下,人类专家不评估基线WIN搜索结果。基于测试,清楚的是本发明的方法比基线方法明显表现更好。
特征组 pre1AC pre5AC pre1A pre5A
没有直接引用 0.91 0.84 0.62 0.42
有直接引用 0.91 0.87 0.68 0.49
表3:基于人工评级的实验结果
本发明的方法较之于WIN所具有的一个显著优点在于其不仅使用基于文本相似度的特征,而且还使用例如基于IPC和引用的特征,这通常包含与在文本中找到的信息互补的信息。例如,在实验中进行的一个测试查询针对关于储存***(家具)的搜索,包含像储藏室、底座、支撑结构、搁板等词。基于文本相似度,WIN在其前5个中返回一些不相关的专利,例如一个专利关于用于可进入展示冷藏柜的库存控制***,而另一个专利关于磁带盒储存***。本发明的方法从其高排位的组中排除这样的不相关专利,举例来说是因为这些不相关专利的IPC不同于候选池的主要IPC并且它们具有低的引用得分。因此,本发明的这个示例性实施例的方法将这样的不相关专利放置在排位中更远地靠下的位置。
以这种方式,本发明的方法提供了无监督的基于重排序的专利检索***,其比基于基线文本的检索***明显更好。本发明的方法使用一组丰富的特征并且可基于自动生成的训练数据进行训练,由此使得该方法在运行时非常高效。尽管在描述本发明时讨论了特定的示例性特征,例如IPC-重叠和直接引用,但本领域的普通技术人员不会这样把本发明限制于这些所表达的特征,并且将理解对具有另外的特征的本发明的使用也会产生有利的结果。例如,可应用这些特征的其他编码并且可采用基于共同引用及IPC之间的其他距离度量的特征。
参考图1,上述过程并且如下面更详细地讨论的那样可连同以示例性***100的形式示出的硬件与软件的组合以及通信连网一起来执行。在这个示例中,***100提供用于搜索、检索、分析以及排序权利要求和/或专利文档的框架。***100可连同例如West Services Inc.,即汤森路透公司的一部分的专业服务供应商的***提供一起被使用,并且在这个示例中包括中央网络服务器/数据库设施101,其包括网络服务器102、例如NOVUS的专利文档数据库103、具有专利权利要求分析器105、特征提取模块106、重排序模块107和学习模块108作为组件的专利文档检索***104。中央设施101可被远程用户109诸如经由例如为因特网的网络126访问。可使用基于因特网或(全球范围的)网络的、基于桌上型计算机的或应用网络实现的组件的任意组合来实现***100的各个方面。这个示例中的远程用户***109包括经由诸如PC计算机等的计算机110操作的GUI界面,其可包括硬件与软件的典型组合,如相对于计算机110所示的那样包括***存储器112,操作***114,应用程序116、图形用户界面(GUI)118、处理器120和存储装置122,存储装置122可包含诸如电子文档的电子信息124。可以在为远程用户提供对可搜索的数据库的访问时采用下文所详细描述的本发明的方法和***。特别地,远程用户可使用基于专利权利要求的搜索查询来搜索专利文档数据库以检索和查看所关心的专利文档。因为专利文档的量非常大,本发明提供了评分和排序过程,其便于有效和高效的并且大大改进的搜索和检索操作。客户机侧应用软件可被存储在机器可读介质上并且包括例如由计算机110的处理器120执行的指令,并且基于网络的界面屏幕的呈现便于用户***109与中央***101之间的交互。操作***114应适用于***101以及此处所描述的浏览器功能,例如Microsoft Windows Vista(商务版、企业版和终极版)、Windows 7或带有适当的服务包的Windows XP专业版。该***可要求远程用户或客户机与处理能力的最低阈值水平,例如英特尔奔腾III的例如为500MHz的速度、最小存储水平及其他参数相兼容。
在这个示例中如此描述的配置是众多配置中的一种并且就本发明而言不是限制性的。中央***101可包括诸如在LAN、WAN、以太网、令牌环、FDDI环或其他通信网络基础设施上的服务器、计算机和数据库的网络。若干合适的通信链路中的任何通信链路都是可用的,举例来说诸如为无线、LAN、WLAN、ISDN、X.25、DSL和ATM型网络中的一个或组合。执行与***101相关联的功能的软件可包括桌上型计算机或服务器或网络环境内的自给式应用,并且可利用诸如SQL 2005或以上版本或者SQL Express、IBM DB2或其他合适的数据库的本地数据库来存储文档、集合以及与处理这样的信息相关联的数据。在示例性实施例中,各种数据库可以是关系数据库。在关系数据库的情况下,各种数据表被创建并且使用SQL或本领域中已知的一些其他数据库查询语言将数据***这些表中和/或从这些表格中选择数据。在使用表和SQL的数据库的情况下,可使用举例来说诸如为MySQL™、SQLServer™、Oracle 8I™、10G™或一些其他合适的数据库应用的数据库应用来管理数据。可将这些表组织成RDS或对象关系数据架构(ORDS),如本领域中已知的那样。
图2和图3示出了示例性专利权利要求分析器基于java的垂直***200,其接受专利权利要求的文本(其可例如在Westlaw上已经由用户以搜索的形式输入,或可已经来源于现有专利中的权利要求文本),并且识别和检索一组响应的专利文档,例如包括最相似的权利要求中的100个的一组。在用圆圈#1示出的步骤1中,诸如Westlaw的订户的用户输入或选择权利要求文本以进行分析。基于查询输入,UI(用户界面)层将权利要求文本发送至CDO(协作数据对象)层。在步骤2中,CDO层创建包含权利要求文本的JSON(Java脚本对象注释)请求,并且经由HTTP POST请求将其提交给该垂直***。在步骤3中,Spring控制器接收该请求,并且启动(kick off)处理。在步骤4中,使用权利要求文本作为查询针对w_ip_claimscs集合组进行初始的自然语言搜索以找到最相关的权利要求中的多达100个。注意到w_ip_claimscs搜索w_ip_ptclaims关系集合以返回关系结果。在一种方式中,可将一个版本的单个权利要求存储在集合内这个集合组引用的每个关系之内。在一种实现中,可使用例如Novus API的与数据库相关联的应用编程接口(API)直接进行搜索。
在步骤5中,一系列步骤(6-8)并行发生。按应用的实例创建的固定线程池管理线程创建、重新使用以及排队(具体而言,这个池是ExecutorService的实例,其为与Java并发实用程序(Java Concurrency Utility)一起被包括的任务调度框架的一部分)。在步骤6中,针对w_ip_bibliocs集合组(其由关系集合构成)进行6种自然语言搜索。在一种方式中,这可基于(一个或多个)相同的关系集合,w_ip_biblio(书志目录集合或备选地为文档集合或其他集合格式)域基于所述(一个或多个)相同的关系集合。因此,实际上,搜索这个集合组即搜索所述域。这些搜索的目标不是要找到特定的关系;相反地,是要收集自然语言搜索得分并且对信息进行排序。搜索是针对各种字段的排列搜索,其中所述查询或者包括被传递到该垂直***中的权利要求文本或者包括“关键概念”文本,所述“关键概念”文本通过由备选服务或源提供的代码从权利要求文本生成。在步骤7中,获取关系(getRelationships)请求被发给w_ip_biblio。所返回的关系产生既被用于显示渲染也被用于到PcaRecommendationMgr中的输入的元数据。在步骤8中,HTTP GET请求由暴露MT图像服务的服务器端小程序(servlet)构成。这个调用被进行以返回链接到专利PDF文档所需的信息。例如,图像服务这个服务器端小程序可被用于得到图像元数据以便在由垂直***返回的结果中提供PDF链接。可进行一个请求来得到多个图像的元数据。
在步骤9中,搜索元数据(以及通过获取关系调用返回的元数据中的一些)被提供给PcaRecommendationMgr,其为所返回的100个权利要求产生最优的排序顺序。在步骤10中,所推荐的权利要求被编译成XML结果,该XML结果作为字符串被***由Spring控制器创建的JSON响应中。在步骤11中,CDO接收并且缓存所推荐的权利要求结果。在步骤12中,UI将XML文档转换成HTML结果并且通过对所返回结果的UI操作进行进一步的过滤。
图4是用于处理本发明的专利文档检索***的示例性方法400的图示。方法400包括用于接收和处理搜索查询并且向用户呈现搜索结果的过程框402-410。注意到此处所显示和/或描述的过程、功能和数据组通常作为编码的程序指令和/或数据被存储在诸如电子、光学、磁性或铁磁介质的机器可读介质中。这些过程、功能和数据组与单个计算或数据处理***内的或者例如经由局域或广域网互连的多个***内的一个或多个处理器结合被使用。在步骤402中,用户输入包括表示专利权利要求搜索的术语的查询。在步骤404中,***执行搜索引擎以从数据库中检索第一组专利文档,该第一组专利文档中的每一个包括响应于用户查询的一个或多个权利要求。在步骤406中,可选地,***收集训练数据并且为一组特征分配权重,其可在为各个特征评分时被使用。在步骤408中,***基于一组专利特征重排序第一组专利文档以生成一组经重排序的专利文档。这可通过生成可根据其进行相似度确定的一组特征得分来完成。该***还可利用已知技术对该组得分进行归一化。所述方法可包括使用阈值评分规定对该组文档进行划界。在步骤410中,***为显示而从所述一组经重排序的专利文档生成响应于查询的权利要求或专利文档的有序列表。
现在参照图5,以计算机***500的示例形式示出机器的示例性表示,可在计算机***500内执行一组指令以使该机器执行此处所讨论的方法中的任何一个或多个。特别地,***500以及这个***的变型可被用于实现图1的专利文档检索***104和/或该***的组件,例如专利权利要求分析器105、特征提取106、重排序模块107和学习模块108。在备选实施例中,该机器作为独立设备操作或可连接(例如连网)到其他机器。在连网的部署中,该机器可在服务器-客户机网络环境中以服务器或客户机的能力进行操作,或者在对等(或分布式)网络环境中作为对等机器进行操作。该机器可包括服务器计算机、客户机计算机、个人计算机(PC)、网络路由器、交换机或桥接器,或能够执行指定将由该机器采取的行动的一组指令(顺序的或相反)的任何机器。此外,尽管仅示出了单个机器,但术语“机器”也可被理解为包括单独地或联合地执行一组(或多组)指令来执行此处所讨论的方法中的任何一个或多个的机器的任何集合。
示例计算机***500包括处理器502(例如中央处理单元(CPU)、图形处理单元(GPU)或两者)、主存储器504和静态存储器506,它们经由总线508彼此通信。计算机***500还可包括视频显示单元510、键盘或其他输入设备512、光标控制设备514(例如鼠标)、存储单元516(例如硬盘驱动器)、信号生成设备518以及网络接口设备520。
存储单元516包括机器可读介质522,在其上存储有具体实施此处所示意的方法或功能中的任何一个或多个的一组或多组指令(例如软件524)。软件524在由计算机***500对其的执行期间也可完全或至少部分地驻留在主存储器504内和/或处理器502内,主存储器504和处理器502也构成机器可读介质。软件524还可经由网络接口设备520在网络526上被传送或接收。
尽管机器可读介质522在示例性实施例中被示出为单个介质,但术语“机器可读介质”应被理解为包括单个介质或多个介质(例如集中式或分布式的数据库和/或相关联的缓存或服务器),其存储一组或多组指令。术语“机器可读介质”也应被理解为包括能够存储、编码或承载由机器执行的一组指令并且使得机器执行本发明的方法中的任何一个或多个的任何介质。相应地,术语“机器可读介质”应被理解为包括但不限于固态存储器、光学和磁性介质以及载波信号。
图6示出了示例性的用户界面屏幕截图,其中对用户呈现具有用于输入查询数据的一组域的“专利权利要求***”实用程序。在这个示例性的GUI中,用户可输入1) 专利号、2) 已公开的专利申请号或者3) 表示要用在搜索中的权利要求语言的自定义文本。在输入与用户搜索相关联的数据时,专利权利要求***功能如上文所描述的那样针对专利文档的数据库处理所述查询,并且返回响应于查询的一组或一列权利要求或专利。
图7和图8示出了示例性用户界面屏幕,其中对用户呈现搜索及其他功能的面板(图7)以及来自已公告的美国专利US PAT 7,448,994的一组权利要求(图8)。从图7的面板中,用户可浏览所述实用程序,以进行诸如查看该专利的历史、排序(order)该专利的文件历史、查看有关该专利的诉讼列表、查看与该专利相关联的转让、查看有关该专利的族谱、查看在产生该专利的申请中提交的原始的一组权利要求的表示、查看最终公告的一组权利要求、查看在该专利中引用的现有技术、查看该专利等的功能。
图8示出了示例性的用户界面屏幕,其中对用户呈现来自已公告的美国专利US PAT 7,448,964的一组权利要求,用户可从中进行选择和提交。在选择和提交将被分析的权利要求时,专利检索***使用上文所描述的本发明的技术针对(一个或多个)数据库应用查询,并且生成响应于查询的权利要求或专利的列表。在这个示例中,用户已从'964专利中选择了权利要求1并且按下了“分析”按钮。图9表示示例性的搜索结果屏幕截图,其中被搜索的权利要求,即'964专利的权利要求1连同被***识别为与所提交的权利要求相似的一组或一列匹配的权利要求一起被呈现。与结果得到的一组权利要求相关联的专利的链接连同一组识别信息,例如专利号、发明人姓名、公告日以及代理人姓名一起被提供。
本发明不应被限制在此处所描述的具体实施例的范围内。应充分预计的是,除了此处所描述的那些实施例之外,本发明的其他各种实施例和变型将从前述说明和附图中变得对本领域的普通技术人员显而易见。因此,这样的其他实施例和变型例旨在落入以下所附权利要求的范围内。此外,尽管此处已在特定实施例和实现及应用的上下文中以及在特定环境下描述了本发明,但本领域的普通技术人员将理解,本发明的实用性不限于此并且本发明可为任意数量的目的以任意数量的方式和环境被有益地应用。相应地,应考虑此处所公开的本发明的全面外延和精神来解释下面所陈述的权利要求。

Claims (39)

1.一种用于处理与专利权利要求术语相关的用户查询以生成响应于所述查询的一组专利文档的基于计算机的***,所述***包括:
搜索引擎,其由计算机执行并且适于接收查询以及基于所述查询搜索包含在至少一个数据库中的专利文档的权利要求,并且适于产生第一组候选专利文档;以及
重排序模块,其包括可由所述计算机执行的代码并且适于至少部分地基于一组专利特征来重排序所述第一组候选专利文档以及生成第二组经排序的专利文档,所述重排序模块适于基于先前执行的学习过程对所述一组专利特征进行加权。
2.根据权利要求1所述的***,其中所述重排序模块还适于为所述第一组候选专利文档中的每一个生成与所述一组专利特征相关联的一组特征得分,所述重排序模块适于至少部分地基于所述一组特征得分重排序来生成所述第二组经排序的专利文档。
3.根据权利要求2所述的***,其中所述重排序模块还适于为所述第一组候选专利文档中的每一个生成至少部分地来源于一组特征得分的总得分,所述重排序模块适于至少部分地基于与所述第一组候选专利文档中的每个专利相关联的总得分重排序来生成所述第二组经排序的专利文档。
4.根据权利要求2所述的***,其中所述一组特征得分中的一个或多个被归一化。
5.根据权利要求1所述的***,其中所述一组专利特征包括来自包括下列各项的集合的一个或多个:专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-c,其表示所述第一组候选专利文档中的专利的任何权利要求的最低排位;sim(c,c),其表示所述查询与所述第一组候选专利文档中的专利的权利要求之间的最高相似度得分;sim(c,cs),其表示所述查询与所述第一组候选专利文档中的专利的所有权利要求之间的相似度得分;sim(c,名称),其表示所述查询与所述第一组候选专利文档中的专利的名称之间的相似度得分;sim(c,摘要),其表示所述查询与所述第一组候选专利文档中的专利的摘要之间的相似度得分;sim(关键概念,关键概念),其表示所述查询的关键概念与所述第一组候选专利文档中的专利的关键概念之间的相似度得分;sim(关键概念,名称),其表示所述查询的关键概念与所述第一组候选专利文档中的专利的名称之间的相似度得分;sim(关键概念,摘要),其表示所述查询的关键概念与所述第一组候选专利文档中的专利的摘要之间的相似度得分;IPC-重叠,其表示所述第一组候选专利文档中的专利的IPC分类号与所述第一组候选专利文档中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量;以及直接引用,其表示所述一组初始高排位专利文档中引用所述第一组候选专利文档中的专利或被所述第一组候选专利文档中的专利引用的专利的数量。
6.根据权利要求1所述的***,其中所述一组专利特征包括IPC-重叠,其表示所述第一组候选专利文档中的专利的IPC分类号与所述第一组候选专利文档中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量,所述重排序模块还适于计算IPC-重叠,其包括适于定义两个IPC分类号之间的重叠得分、基于IPC分类号结构将每个IPC分类号分为多个级的代码,并且其中两个IPC分类号之间的第一级重叠产生第一得分并且两个IPC分类号之间的第二级重叠产生第二得分。
7.根据权利要求6所述的***,其中给定专利文档的IPC-重叠是该专利文档的IPC分类号与所述一组初始高排位专利文档的所有IPC分类号之间的平均重叠得分。
8.根据权利要求7所述的***,其中专利文档的IPC-重叠得分与其相关性得分直接相关。
9.根据权利要求1所述的***,其中基于先前执行的学习过程所配置的所述重排序模块包括自动生成的训练数据,所述自动生成的训练数据被处理以建立将被分配给所述一组专利特征中的各个特征的相关性权重。
10.根据权利要求9所述的***,其中学习模块收集训练数据并且至少部分地基于所收集的训练数据为所述一组专利特征分配相关性权重。
11.根据权利要求1所述的***,其中所述搜索引擎包括适于产生所述第一组候选专利文档的基于基线文本的检索***。
12.根据权利要求1所述的***,其中所述查询包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述搜索引擎处理以对包括在所述第一组候选专利文档中的专利进行划界或加权。
13.根据权利要求1所述的***,其中所述查询包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述重排序模块处理以对所述一组专利特征进行划界或加权。
14.一种用于接收和处理搜索查询并且向用户呈现搜索结果的方法,所述方法包括:
a)接收包括表示专利权利要求搜索的术语的查询;
b)使用搜索引擎从数据库中检索第一组专利信息,所述第一组专利信息中的每一个包括响应于所述查询的一个或多个权利要求;
c)基于一组专利特征重排序所述第一组专利信息以生成一组经重排序的专利信息,其中所述一组专利特征被基于包括与所述权利要求的主题相关的至少一个分类特征的一组特征进行加权;以及
d)为显示而生成来源于所述一组经重排序的专利信息的响应于所述查询的一组有序信息。
15.根据权利要求14所述的方法,其中所述第一组专利信息包括专利文档。
16.根据权利要求14所述的方法,其中为显示而生成的所述一组有序信息包括响应于所述查询的专利权利要求。
17.根据权利要求14所述的方法,其中为显示而生成的所述一组有序信息包括到专利文档的链接。
18.根据权利要求14所述的方法,其还包括:收集训练数据并且至少部分地基于所收集的训练数据为所述一组专利特征分配相关性权重。
19.根据权利要求14所述的方法,其还包括:为所述第一组专利信息中的每一个生成与所述一组专利特征相关联的一组特征得分,并且至少部分地基于所述一组特征得分重排序来生成所述一组经重排序的专利信息。
20.根据权利要求19所述的方法,其还包括:对所述一组特征得分中的一个或多个进行归一化。
21.根据权利要求14所述的方法,其中所述一组专利特征包括来自包括下列各项的集合的一个或多个:专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-c,其表示所述第一组专利信息中的专利的任何权利要求的最低排位;sim(c,c),其表示所述查询与所述第一组专利信息中的专利的权利要求之间的最高相似度得分;sim(c,cs),其表示所述查询与所述第一组专利信息中的专利的所有权利要求之间的相似度得分;sim(c,名称),其表示所述查询与所述第一组专利信息中的专利的名称之间的相似度得分;sim(c,摘要),其表示所述查询与所述第一组专利信息中的专利的摘要之间的相似度得分;sim(关键概念,关键概念),其表示所述查询的关键概念与所述第一组专利信息中的专利的关键概念之间的相似度得分;sim(关键概念,名称),其表示所述查询的关键概念与所述第一组专利信息中的专利的名称之间的相似度得分;sim(关键概念,摘要),其表示所述查询的关键概念与所述第一组专利信息中的专利的摘要之间的相似度得分;IPC-重叠,其表示所述第一组专利信息中的专利的IPC分类号与所述第一组专利信息中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量;以及直接引用,其表示所述一组初始高排位专利文档中引用所述第一组专利信息中的专利或被所述第一组专利信息中的专利引用的专利的数量。
22.根据权利要求14所述的方法,其中所述一组专利特征包括IPC-重叠,其表示所述第一组专利信息中的专利的IPC分类号与所述第一组专利信息中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量,所述方法还还包括计算IPC-重叠,计算IPC-重叠包括定义两个IPC分类号之间的重叠得分、基于IPC分类号结构将每个IPC分类号分为多个级,并且其中两个IPC分类号之间的第一级重叠产生第一得分并且两个IPC分类号之间的第二级重叠产生第二得分。
23.根据权利要求22所述的方法,其中给定专利文档的IPC-重叠是该专利文档的IPC分类号与所述一组初始高排位专利文档的所有IPC分类号之间的平均重叠得分。
24.根据权利要求23所述的方法,其中专利文档的IPC-重叠得分与其相关性得分直接相关。
25.根据权利要求14所述的方法,其中所述查询包括多个独立定义的查询术语。
26.一种用于处理与专利权利要求术语相关的用户查询并向用户呈现搜索结果的装置,包括:
用于呈现包括用于接收查询输入的输入框的图形用户界面屏幕的部件;
用于接收与专利权利要求术语相关的查询的部件;
用于针对与在包括专利文档的数据库中所表示的专利文档相关联的权利要求来处理所述查询以生成响应于所述查询的一组候选专利文档的部件;
用于至少部分地基于一组专利特征重排序所述一组候选专利文档并且生成第二组经排序的专利文档的部件,其中所述一组专利特征被基于包括与所述权利要求的主题相关的至少一个分类特征的一组特征进行加权;以及
用于为查看而显示与所述一组经排序的专利文档相关联的图形用户界面屏幕的部件。
27.一种用于处理与专利权利要求术语相关的用户查询以生成响应于所述查询的一组专利文档的基于计算机的***,所述***包括:
搜索引擎,其由计算机执行并且适于接收查询以及基于所述查询搜索包含在至少一个数据库中的专利文档的权利要求,并且适于产生第一组候选专利文档;以及
重排序模块,其包括可由所述计算机执行的代码并且适于至少部分地基于一组专利特征来重排序所述第一组候选专利文档以及生成第二组经排序的专利文档,所述重排序模块适于基于包括与所述权利要求的主题相关的至少一个分类特征的一组特征对所述一组专利特征进行加权。
28.根据权利要求27所述的***,其中所述重排序模块还适于为所述第一组候选专利文档中的每一个生成与所述一组专利特征相关联的一组特征得分,所述重排序模块适于至少部分地基于所述一组特征得分重排序来生成所述第二组经排序的专利文档。
29.根据权利要求28所述的***,其中所述重排序模块还适于为所述第一组候选专利文档中的每一个生成至少部分来源于一组特征得分的总得分,所述重排序模块适于至少部分地基于与所述第一组候选专利文档中的每个专利相关联的总得分重排序来生成所述第二组经排序的专利文档。
30.根据权利要求28所述的***,其中所述一组特征得分中的一个或多个被归一化。
31.根据权利要求27所述的***,其中所述一组专利特征包括来自包括下列各项的集合的一个或多个:专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-c,其表示所述第一组候选专利文档中的专利的任何权利要求的最低排位;sim(c,c),其表示所述查询与所述第一组候选专利文档中的专利的权利要求之间的最高相似度得分;sim(c,cs),其表示所述查询与所述第一组候选专利文档中的专利的所有权利要求之间的相似度得分;sim(c,名称),其表示所述查询与所述第一组候选专利文档中的专利的名称之间的相似度得分;sim(c,摘要),其表示所述查询与所述第一组候选专利文档中的专利的摘要之间的相似度得分;sim(关键概念,关键概念),其表示所述查询的关键概念与所述第一组候选专利文档中的专利的关键概念之间的相似度得分;sim(关键概念,名称),其表示所述查询的关键概念与所述第一组候选专利文档中的专利的名称之间的相似度得分;sim(关键概念,摘要),其表示所述查询的关键概念与所述第一组候选专利文档中的专利的摘要之间的相似度得分;IPC-重叠,其表示所述第一组候选专利文档中的专利的IPC分类号与所述第一组候选专利文档中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量;以及直接引用,其表示所述一组初始高排位专利文档中引用所述第一组候选专利文档中的专利或被所述第一组候选专利文档中的专利引用的专利的数量。
32.根据权利要求27所述的***,其中所述一组专利特征包括IPC-重叠,其表示所述第一组候选专利文档中的专利的IPC分类号与所述第一组候选专利文档中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量,所述重排序模块还适于计算IPC-重叠,其包括适于定义两个IPC分类号之间的重叠得分、基于IPC分类号结构将每个IPC分类号分为多个级的代码,并且其中两个IPC分类号之间的第一级重叠产生第一得分并且两个IPC分类号之间的第二级重叠产生第二得分。
33.根据权利要求32所述的***,其中给定专利文档的IPC-重叠是该专利文档的IPC分类号与所述一组初始高排位专利文档的所有IPC分类号之间的平均重叠得分。
34.根据权利要求33所述的***,其中专利文档的IPC-重叠得分与其相关性得分直接相关。
35.根据权利要求27所述的***,其中基于先前执行的学习过程所配置的所述重排序模块包括自动生成的训练数据,所述自动生成的训练数据被处理以建立将被分配给所述一组专利特征中的各个特征的相关性权重。
36.根据权利要求35所述的***,其中学习模块收集训练数据并且至少部分地基于所收集的训练数据为所述一组专利特征分配相关性权重。
37.根据权利要求27所述的***,其中所述搜索引擎包括适于产生所述第一组候选专利文档的基于基线文本的检索***。
38.根据权利要求27所述的***,其中所述查询包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述搜索引擎处理以对包括在所述第一组候选专利文档中的专利进行划界或加权。
39.根据权利要求27所述的***,其中所述查询包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述重排序模块处理以对所述一组专利特征进行划界或加权。
CN201180008432.1A 2010-02-03 2011-02-01 使用权利要求分析排序知识产权文档的方法和*** Expired - Fee Related CN102792262B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US12/658,165 US9110971B2 (en) 2010-02-03 2010-02-03 Method and system for ranking intellectual property documents using claim analysis
US12/658165 2010-02-03
US12/658,165 2010-02-03
PCT/US2011/000190 WO2011097017A1 (en) 2010-02-03 2011-02-01 Method and system for ranking intellectual property documents using claim analysis

Publications (2)

Publication Number Publication Date
CN102792262A CN102792262A (zh) 2012-11-21
CN102792262B true CN102792262B (zh) 2016-08-10

Family

ID=44342509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180008432.1A Expired - Fee Related CN102792262B (zh) 2010-02-03 2011-02-01 使用权利要求分析排序知识产权文档的方法和***

Country Status (6)

Country Link
US (1) US9110971B2 (zh)
EP (1) EP2531909A4 (zh)
CN (1) CN102792262B (zh)
AR (1) AR081313A1 (zh)
CA (1) CA2788704C (zh)
WO (1) WO2011097017A1 (zh)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548995B1 (en) * 2003-09-10 2013-10-01 Google Inc. Ranking of documents based on analysis of related documents
CN101861586A (zh) * 2007-10-04 2010-10-13 Ip街股份有限公司 知识产权和财务信息的聚集、分析和呈现
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US20100250340A1 (en) * 2009-03-24 2010-09-30 Ip Street, Inc. Processing and Presenting Intellectual Property and Other Information
US20100262512A1 (en) * 2009-04-13 2010-10-14 Ip Street, Inc. Processing and Presenting Intellectual Property and Other Information
US20110231449A1 (en) * 2010-03-17 2011-09-22 Ashley William B System, Method, and Apparatus for Managing Patent Reference Reporting
US9836460B2 (en) * 2010-06-11 2017-12-05 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for analyzing patent-related documents
US10380147B1 (en) * 2010-10-07 2019-08-13 PatentSight GmbH Computer implemented method for quantifying the relevance of documents
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US8478704B2 (en) * 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
CN102650998A (zh) * 2011-02-28 2012-08-29 鸿富锦精密工业(深圳)有限公司 外观设计专利展示***及方法
US20120278244A1 (en) * 2011-04-15 2012-11-01 IP Street Evaluating Intellectual Property
US10891701B2 (en) 2011-04-15 2021-01-12 Rowan TELS Corp. Method and system for evaluating intellectual property
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US20120317040A1 (en) * 2011-06-08 2012-12-13 Entrepreneurial Innovation, LLC. Patent Value Prediction
US9798767B1 (en) * 2011-08-11 2017-10-24 IVP Holding III, LLC Iterative searching of patent related literature using citation analysis
US9760586B1 (en) 2011-08-11 2017-09-12 IVP Holdings III LLC Multiple searcher use of search result snapshot histories
US9798753B1 (en) 2011-08-11 2017-10-24 IVP Holding III, LLC Search result snapshot histories
US9846694B1 (en) 2011-08-11 2017-12-19 IVP Holdings III LLC Patent related literature assisted user profiling, matching, and classification
US20130085946A1 (en) * 2011-10-03 2013-04-04 Steven W. Lundberg Systems, methods and user interfaces in a patent management system
JP5700566B2 (ja) * 2012-02-07 2015-04-15 日本電信電話株式会社 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
US9542449B2 (en) * 2012-04-09 2017-01-10 Search For Yeti, LLC Collaboration and analysis system for disparate information sources
US11461862B2 (en) 2012-08-20 2022-10-04 Black Hills Ip Holdings, Llc Analytics generation for patent portfolio management
US20140108273A1 (en) * 2012-08-20 2014-04-17 Black Hills Ip Holdings, Llc Systems and methods for patent portfolio management and generation of analytics
CN105009112A (zh) * 2012-10-19 2015-10-28 专利分析控股私人有限公司 用于网络数据集的呈现和可视导航的***和方法
US9767190B2 (en) 2013-04-23 2017-09-19 Black Hills Ip Holdings, Llc Patent claim scope evaluator
JP5572252B1 (ja) * 2013-09-11 2014-08-13 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法およびデジタル情報分析プログラム
US11556606B1 (en) 2013-12-17 2023-01-17 Nimvia, LLC Graphical user interfaces (GUIs) including outgoing USPTO correspondence for use in patent case management and docketing
US10503801B1 (en) * 2013-12-17 2019-12-10 Nimvia, LLC Graphical user interfaces (GUIs) for improvements in case management and docketing
US10242114B2 (en) * 2013-12-30 2019-03-26 Microsoft Technology Licensing, Llc Point of interest tagging from social feeds
US10846295B1 (en) * 2019-08-08 2020-11-24 Applied Underwriters, Inc. Semantic analysis system for ranking search results
US11809434B1 (en) 2014-03-11 2023-11-07 Applied Underwriters, Inc. Semantic analysis system for ranking search results
US9703616B2 (en) * 2014-08-05 2017-07-11 International Business Machines Corporation Executing a command on an optimal smart device
RU2580516C2 (ru) * 2014-08-19 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ формирования персонализированной модели ранжирования, способ формирования модели ранжирования, электронное устройство и сервер
US10133791B1 (en) * 2014-09-07 2018-11-20 DataNovo, Inc. Data mining and analysis system and method for legal documents
US10360229B2 (en) 2014-11-03 2019-07-23 SavantX, Inc. Systems and methods for enterprise data search and analysis
US10915543B2 (en) 2014-11-03 2021-02-09 SavantX, Inc. Systems and methods for enterprise data search and analysis
US10083295B2 (en) * 2014-12-23 2018-09-25 Mcafee, Llc System and method to combine multiple reputations
US11720575B2 (en) * 2015-01-16 2023-08-08 Rakuten Group, Inc. Computer database access system and method for categorizing by style ranking
JP6023254B1 (ja) * 2015-04-09 2016-11-09 真之 正林 情報処理装置及び方法、並びにプログラム
JP5923806B1 (ja) * 2015-04-09 2016-05-25 真之 正林 情報処理装置及び方法、並びにプログラム
US10019442B2 (en) * 2015-05-31 2018-07-10 Thomson Reuters Global Resources Unlimited Company Method and system for peer detection
WO2017017533A1 (en) 2015-06-11 2017-02-02 Thomson Reuters Global Resources Risk identification and risk register generation system and engine
TWI584217B (zh) * 2015-08-24 2017-05-21 雲拓科技有限公司 專利檢索的分析結果之驗證方法
JP6491345B2 (ja) * 2015-09-25 2019-03-27 株式会社日本電気特許技術情報センター 情報処理装置、情報処理方法およびプログラム
CN105302793A (zh) * 2015-10-21 2016-02-03 南方电网科学研究院有限责任公司 一种利用计算机自动评价科技文献新颖性的方法
CN105205477A (zh) * 2015-10-22 2015-12-30 西安理工大学 一种基于印品图像信息的印刷机状态识别方法
CN105912526A (zh) * 2016-04-15 2016-08-31 北京大学 一种面向体育比赛直播文字的体育新闻自动构建方法及装置
CN106227750A (zh) * 2016-07-14 2016-12-14 上海超橙科技有限公司 数据分析及展示方法及***
CA3039539C (en) 2016-10-13 2023-06-13 Ebates Inc. Wish list user interface within a web browser that alerts users to changes in prices
US11328128B2 (en) 2017-02-28 2022-05-10 SavantX, Inc. System and method for analysis and navigation of data
US10528668B2 (en) 2017-02-28 2020-01-07 SavantX, Inc. System and method for analysis and navigation of data
CN108874824A (zh) * 2017-05-12 2018-11-23 汉达精密电子(昆山)有限公司 专利检索结果图形显示***及方法
US10984476B2 (en) 2017-08-23 2021-04-20 Io Strategies Llc Method and apparatus for determining inventor impact
US10740781B2 (en) 2017-10-31 2020-08-11 Ebates Performance Marketing, Inc. System, method, and computer program for providing notification of a cashback reward from a shopping portal using online screen and email analysis
WO2019108793A1 (en) * 2017-11-29 2019-06-06 John Maclaren Walsh Recommender methods and systems for patent processing
JP6888577B2 (ja) * 2018-03-30 2021-06-16 オムロン株式会社 制御装置、制御方法、及び制御プログラム
JP6506439B1 (ja) * 2018-03-30 2019-04-24 株式会社AI Samurai 情報処理装置、情報処理方法及び情報処理プログラム
US11194956B2 (en) * 2018-04-30 2021-12-07 Patent Bots LLC Offline interactive natural language processing results
WO2020106451A1 (en) * 2018-11-20 2020-05-28 Google Llc Methods, systems, and media for modifying search results based on search query risk
US11568468B2 (en) 2019-08-08 2023-01-31 Rakuten Group, Inc. System, method, and computer program for providing similar product recommendations for non-merchant publishers based on publisher preferences
US11699034B2 (en) * 2019-08-20 2023-07-11 Daystrom Information Systems, Llc Hybrid artificial intelligence system for semi-automatic patent infringement analysis
CN111949698B (zh) * 2020-07-19 2022-03-11 宁波大学 基于大数据挖掘的高校研发方向推荐方法
US11893537B2 (en) * 2020-12-08 2024-02-06 Aon Risk Services, Inc. Of Maryland Linguistic analysis of seed documents and peer groups
US11928427B2 (en) * 2020-12-08 2024-03-12 Aon Risk Services, Inc. Of Maryland Linguistic analysis of seed documents and peer groups
CN114580556A (zh) * 2022-03-10 2022-06-03 北京中知智慧科技有限公司 专利文献的预评估方法及装置
US11868358B1 (en) 2022-06-15 2024-01-09 Microsoft Technology Licensing, Llc Contextualized novelty for personalized discovery

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064019A (zh) * 2006-04-28 2007-10-31 佛山市顺德区顺达电脑厂有限公司 结合新闻目录的专利电子平台
CN101625680A (zh) * 2008-07-09 2010-01-13 东北大学 面向专利领域的文档检索方法

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6339767B1 (en) * 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US5806079A (en) * 1993-11-19 1998-09-08 Smartpatents, Inc. System, method, and computer program product for using intelligent notes to organize, link, and manipulate disparate data objects
US5623679A (en) * 1993-11-19 1997-04-22 Waverley Holdings, Inc. System and method for creating and manipulating notes each containing multiple sub-notes, and linking the sub-notes to portions of data objects
US6963920B1 (en) * 1993-11-19 2005-11-08 Rose Blush Software Llc Intellectual asset protocol for defining data exchange rules and formats for universal intellectual asset documents, and systems, methods, and computer program products related to same
US5799325A (en) * 1993-11-19 1998-08-25 Smartpatents, Inc. System, method, and computer program product for generating equivalent text files
US5623681A (en) * 1993-11-19 1997-04-22 Waverley Holdings, Inc. Method and apparatus for synchronizing, displaying and manipulating text and image documents
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5832476A (en) * 1994-06-29 1998-11-03 Hitachi, Ltd. Document searching method using forward and backward citation tables
US5619632A (en) * 1994-09-14 1997-04-08 Xerox Corporation Displaying node-link structure with region of greater spacings and peripheral branches
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5870770A (en) * 1995-06-07 1999-02-09 Wolfe; Mark A. Document research system and method for displaying citing documents
US5774833A (en) * 1995-12-08 1998-06-30 Motorola, Inc. Method for syntactic and semantic analysis of patent text and drawings
US5754840A (en) * 1996-01-23 1998-05-19 Smartpatents, Inc. System, method, and computer program product for developing and maintaining documents which includes analyzing a patent application with regards to the specification and claims
US5808615A (en) * 1996-05-01 1998-09-15 Electronic Data Systems Corporation Process and system for mapping the relationship of the content of a collection of documents
US5721910A (en) * 1996-06-04 1998-02-24 Exxon Research And Engineering Company Relational database system containing a multidimensional hierachical model of interrelated subject categories with recognition capabilities
EP1486891A3 (en) * 1997-02-12 2005-03-09 Kokusai Denshin Denwa Co., Ltd Document retrieval apparatus
US20070233659A1 (en) * 1998-05-23 2007-10-04 Lg Electronics Inc. Information auto classification method and information search and analysis method
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US7716060B2 (en) * 1999-03-02 2010-05-11 Germeraad Paul B Patent-related tools and methodology for use in the merger and acquisition process
US7966328B2 (en) * 1999-03-02 2011-06-21 Rose Blush Software Llc Patent-related tools and methodology for use in research and development projects
US6175824B1 (en) * 1999-07-14 2001-01-16 Chi Research, Inc. Method and apparatus for choosing a stock portfolio, based on patent indicators
US20090259506A1 (en) * 1999-09-14 2009-10-15 Barney Jonathan A Method and system for rating patents and other intangible assets
US6556992B1 (en) * 1999-09-14 2003-04-29 Patent Ratings, Llc Method and system for rating patents and other intangible assets
US7849117B2 (en) * 2000-01-12 2010-12-07 Knowledge Sphere, Inc. Multi-term frequency analysis
US20020169743A1 (en) * 2001-05-08 2002-11-14 David Arnold Web-based method and system for identifying and searching patents
US20030187832A1 (en) * 2002-04-02 2003-10-02 Reader Scot A. Method for locating patent-relevant web pages and search agent for use therein
US20040015481A1 (en) * 2002-05-23 2004-01-22 Kenneth Zinda Patent data mining
US7904453B2 (en) * 2002-10-17 2011-03-08 Poltorak Alexander I Apparatus and method for analyzing patent claim validity
BR0317764A (pt) * 2002-12-27 2006-02-21 Intellectual Property Bank dispositivo de avaliação de tecnologia, programa de avaliação de tecnologia, e método de avaliação de tecnologia
CN1839401A (zh) * 2003-09-19 2006-09-27 东芝解决方案株式会社 信息处理装置及信息处理方法
CA2540661A1 (en) * 2003-09-30 2005-04-14 Intellectual Property Bank Corp. Similarity calculation device and similarity calculation program
US9477729B2 (en) * 2004-02-20 2016-10-25 Informatica Llc Domain based keyword search
US20050261927A1 (en) * 2004-05-24 2005-11-24 Bilak Mark R System and method for valuing intellectual property
WO2006115227A1 (ja) * 2005-04-21 2006-11-02 Intellectual Property Bank Corp. 調査対象文書の索引語抽出装置
CN101208694A (zh) * 2005-04-25 2008-06-25 株式会社Ipb 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法
KR101035197B1 (ko) * 2005-05-26 2011-05-18 샤프 가부시키가이샤 특허 정보 분석 장치, 특허 정보 분석 방법, 및 특허 정보 분석 프로그램을 기록하고 있는 컴퓨터 판독 가능한 기록 매체
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US20080015968A1 (en) * 2005-10-14 2008-01-17 Leviathan Entertainment, Llc Fee-Based Priority Queuing for Insurance Claim Processing
US20070219853A1 (en) * 2005-10-14 2007-09-20 Leviathan Entertainment, Llc Patent Examiner Selection
US7657476B2 (en) * 2005-12-28 2010-02-02 Patentratings, Llc Method and system for valuing intangible assets
US20070288256A1 (en) * 2006-06-07 2007-12-13 Speier Gary J Patent claim reference generation
US20070294232A1 (en) * 2006-06-15 2007-12-20 Andrew Gibbs System and method for analyzing patent value
US20080033741A1 (en) * 2006-08-04 2008-02-07 Leviathan Entertainment, Llc Automated Prior Art Search Tool
AU2007314921A1 (en) * 2006-11-02 2008-05-08 Intellectual Property Bank Corp. Patent evaluating device
US8065307B2 (en) * 2006-12-20 2011-11-22 Microsoft Corporation Parsing, analysis and scoring of document content
US20080183759A1 (en) * 2007-01-29 2008-07-31 Word Data Corp System and method for matching expertise
TW200839545A (en) * 2007-03-16 2008-10-01 Sunonwealth Electr Mach Ind Co Analyzing method for technique correlation research of patents
US20090070297A1 (en) * 2007-07-18 2009-03-12 Ipvision, Inc. Apparatus and Method for Performing Analyses on Data Derived from a Web-Based Search Engine
US9146985B2 (en) * 2008-01-07 2015-09-29 Novell, Inc. Techniques for evaluating patent impacts
KR100963623B1 (ko) * 2008-04-23 2010-06-15 재단법인서울대학교산학협력재단 시맨틱 웹 자원의 랭킹처리방법
CN101359331B (zh) * 2008-05-04 2014-03-19 索意互动(北京)信息技术有限公司 对搜索结果重新排序的方法和***
US20100131513A1 (en) * 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US8112422B2 (en) * 2008-10-27 2012-02-07 At&T Intellectual Property I, L.P. Computer systems, methods and computer program products for data anonymization for aggregate query answering
US20100125566A1 (en) * 2008-11-18 2010-05-20 Patentcafe.Com, Inc. System and method for conducting a patent search
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064019A (zh) * 2006-04-28 2007-10-31 佛山市顺德区顺达电脑厂有限公司 结合新闻目录的专利电子平台
CN101625680A (zh) * 2008-07-09 2010-01-13 东北大学 面向专利领域的文档检索方法

Also Published As

Publication number Publication date
EP2531909A1 (en) 2012-12-12
US9110971B2 (en) 2015-08-18
EP2531909A4 (en) 2013-07-10
WO2011097017A1 (en) 2011-08-11
AR081313A1 (es) 2012-08-08
CA2788704C (en) 2018-09-04
CA2788704A1 (en) 2011-08-11
CN102792262A (zh) 2012-11-21
US20110191310A1 (en) 2011-08-04

Similar Documents

Publication Publication Date Title
CN102792262B (zh) 使用权利要求分析排序知识产权文档的方法和***
Price et al. Computational support for academic peer review: A perspective from artificial intelligence
Li et al. KDD CUP-2005 report: Facing a great challenge
Yang et al. Venue recommendation: Submitting your paper with style
Göksedef et al. Combination of Web page recommender systems
US9449105B1 (en) User-context-based search engine
US20070250500A1 (en) Multi-directional and auto-adaptive relevance and search system and methods thereof
US9588955B2 (en) Systems, methods, and software for manuscript recommendations and submissions
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
Amami et al. A graph based approach to scientific paper recommendation
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
Bin et al. Web mining research
AU2011210742A1 (en) Method and system for conducting legal research using clustering analytics
Karimzadehgan et al. Integer linear programming for constrained multi-aspect committee review assignment
Wang et al. Analysing CV corpus for finding suitable candidates using knowledge graph and BERT
US11568314B2 (en) Data-driven online score caching for machine learning
Das et al. Leveraging collaborative tagging for web item design
CN115860283A (zh) 基于知识工作者画像的贡献度预测方法及装置
US8886651B1 (en) Thematic clustering
Fang et al. Facfinder: Search for expertise in academic institutions
Zhou et al. Olap on search logs: an infrastructure supporting data-driven applications in search engines
Noor et al. Automatic cv ranking using document vector and word embedding
Yumusak et al. Classification of Linked Data Sources Using Semantic Scoring
Zhang Effective search in online knowledge communities: A genetic algorithm approach
Huiskes Aspect-based relevance learning for image retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Swiss Swiss

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Swiss Swiss

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CP02 Change in the address of a patent holder

Address after: Chug, Switzerland

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Bahr, Switzerland

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CP02 Change in the address of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200414

Address after: Chug, Switzerland

Patentee after: Thomson Reuters Enterprise Center Co.,Ltd.

Address before: Chug, Switzerland

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160810

Termination date: 20220201

CF01 Termination of patent right due to non-payment of annual fee