CN104765779A

CN104765779A - 一种基于YAGO2s的专利文档查询扩展方法

Info

Publication number: CN104765779A
Application number: CN201510124279.9A
Authority: CN
Inventors: 林兰芬; 朱晓伟; 王�锋; 张文宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2015-07-08

Abstract

本发明公开了一种基于YAGO2s的专利文档查询扩展方法，按以下步骤进行：第一步：从专利数据集中获取内容并分析得到专利文档概念术语；第二步：将专利文档进行分类；第三步：构建专利文档索引；第四步：基于改进TF-IDF方法构建专利文档领域概念词典；第五步：查询输入分析及构建；第六步：根据查询输入的国际专利分类对应的领域概念词典对初始查询进行查询扩展；第七步，将YAGO2s作为外部查询扩展源，进行语义概念查询扩展，产生初始查询的扩展概念；第八步：查询重构，组成最终查询。本发明结合专利文档的特点，对查询进行语义分析，对初始查询概念进行扩展，其能有效地理解用户的查询意图，提高了检索的性能。

Description

一种基于YAGO2s的专利文档查询扩展方法

技术领域

本发明属于信息查询技术领域，尤其是涉及一种基于YAGO2s本体库的专利文档查询扩展方法。

背景技术

科学竞赛越来越白热化，专利是巨大的技术源头，当前有百万级别的专利文档，其中富含大量的科学的、技术的成果，但对专利的应用只有50个百分点。利用查询扩展技术对专利内容的发掘和利用是当前最流行的提升检索性能的手段之一。

在查询检索中，最显著的影响检索效率的词汇问题，通常是查询输入的术语不匹配造成的。检索***所用的索引器与用户输入的查询条件不总是使用同一个词，表现为一词多义和近义词现象。近义词与词汇变形，通常会影响检索的召回率(找出所有相关的文档)。而一词多义则会降低查准率(只返回相关的文档)。为了解决上述问题，包括交互式二次查询，关联性反馈查询，词义消歧及查询结果聚类等很多方法被引入查询检索，其中查询扩展技术较为成功，其通过分析初始查询，用最能表达用户真实意图的词来进行一次更有效的查询，以得到关联度最高的查询结果。目前查询扩展技术已经被广泛应用在专利查询检索中，根据提取查询扩展词的来源不同主要有基于用户查询日志、基于伪相关反馈(PRF)、基于关联规则、基于语义本体等查询扩展技术。

用户查询日志是单个用户或者众多用户在使用专利检索***是时留下记录，日志经过一段时间的积累，对它们进行分析来得到用户的偏好等“反馈”信息。崔等人提出以条件概率的方式连接用户历史查询记录与文档集合，当用户进行查询时，***选取该查询输入之前被选择成为扩展用词的条件概率最大的文档用词加入到查询中。但基于用户查询日志的方法在互联网文本检索中十分有效，而由于专利的长查询输入及结构化组织文档的特性，这种方式在专利检索中并不是十分适用。

伪相关反馈，也称之为盲式相关反馈，提供的是一种自动局部分析方法，它可以自动化相关反馈的手动操作部分，因此用户可不用参与额外的交互也可以获得更好的检索性能。这种方法首先通过普通检索从最相关的文档中寻找到一个初始结果，然后假定其中的前“k”(在大多数实验中仅前k个，k位于10和50之间的数)个排名文档是相关的，最后在这个假设条件下像前面一样进行相关反馈。曹等人基于伪相关反馈结果，集成词分类过程来预测扩展词的有效性，进而得到可信度比较高的查询扩展词，并取得了不错的实验结果。但是实验结果得出虽然第一次检索返回的前最高几个专利文档跟初始查询相关，但是在将这些“相关文档”引用进来的同时，势必会引入很多不相关的扩展词汇，在降低检索的速度的同时，检索效率却只能提升一点，而且在引入过多的无关词汇情况下，甚至会降低检索的性能。

查询扩展技术除了传统的关键词查询扩展外，还有查询词权重调整角度的查询扩展技术，它主要是对查询词权重进行重新调整。这种方法数据局部分析的相关反馈扩展技术，它的基本思想是：从用户认为相关的初始查询结果文档中选择重要的词汇，提高它们的权重，然后重构初始查询。它的缺点是必须依赖于用户对初始查询结果文档做出相关性判断，而且不同用户的判断水平层次也不错，有很强的主观性。一些研究人员通过机器学习的一些方法来帮助用户进行判断，取得了不错的效果。

WordNet是由心理学家，语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列，而且按照单词的意义组成一个“单词的网络”。WordNet根据词条的意义进行分组，每一个具有相同意义的词条组称为一个同义词集合。WordNet为每一个同义词集都提供了简短的、概要的注释定义，并保存着不同同义词集之间的语义关系。已有的方法一般是利用WordNet对初始查询词汇进行扩展。将初始查询词汇的同义词集、下位词集作为扩展词汇，并根据这些词汇的词义注释部分，对其进行自然语言分析，提取其中的主要是名词短语作为候选扩展词汇。

基于关联规则的查询扩展方法的主要思想是：利用改进的关联规则方法，一般基于Apriori方法和FP-树方法，挖掘词之间的关联规则来作为查询扩展次的来源。这种扩展方法能很好地改善检索性能，如文献在搜索引擎谷歌上的实验表明，其平均查准率(MAP)比传统的查询扩展提高23.16％。

语义网：因特网创始人于1998年提出，下一代的万维网是语义网。2000年12月18日，其在XML2000会议上正式提出了语义网这个术语，它给出了如下的定义：“语义网是一个网。它包含了文档或文档的一部分，描述了事物间的明显关系，且包含语义信息，以利于机器的自动处理”。语义网作为Web3.0网络时代的特征之一，是未来网络的发展趋势，它基本特征：是面向文档所表示的数据，便于计算机理解和处理。此外语义网还具有一定判断和推理能力。语义网提供跨越应用、企业、社区等界限的数据共享和重用的公共框架，在语义网分层标准栈中，XML、RDF、RDFS、OWL等提供了从仅描述数据结构到描述数据模型及语义的不同层次的网络资源表示方法。语义网具有以下基本特征：

1)通过万维网能访问到原来及本地使用的应用信息。

2)以基于文档结构的形式化描述促进数据集成和组合。

3)以机器理解的形式描述信息，使智能代理能理解信息并进行操作。

4)建立数据与真实世界对象间的关系。

5)可以利用作用在数据上的逻辑规则推出新的知识。

庞大的语义网中最突出的一块即是本体，它在语义网中的作用是用于表达和获取信息的语义，解决XML和RDF在处理语义上的不足。

本体(ontology)是共享概念模型的明确的、形式化的规范描述，具有以下4个特点：

1)概念化，即通过抽象出客观世界中一些现象的相关概念而得到的模型，其表示的含义独立于具体的环境状态。

2)明确化，即对每一个对象的概念及它们之间的联系都进行精确的定义。

3)形式化，即对概念及它们之间关系都进行精确的数学描述，是机器可读的。

4)共享化，即本体中反映的只是领域内的共识。

近年来本体发展迅速，在各行各业被用来进行知识组织、信息检索、易异构数据集成、知识建模等科学研究。目前很多组织和机构经过长期的研究已经形成了一些本体库，比如SUMO、WordNet、SemanticWikipedia、YAGO、HowNet、Dbpedia等。随着本体库的快速发展，一些研究者开始利用本体库进行一些探索性的研究工作，并且取得了不错的学术成果。Vallet等人提出了一个基于本体的信息检索模型，利用本体知识库来对文档检索进行改进。费尔南德斯等人在其他人研究成果的基础上进一步开发了一个基于本体的语义信息检索***，主要利用形式化的本体和知识库来对查询进行理解。科学家对异构的数据资源构建本体模型，并利用共享本体与各资源本体的通用知识映射，实现本体驱动的数据的集成。

YAGO2是关于YAGO的最新扩展版本，增加了时空关系，使原有知识描述进一步得到巩固，而YAGO2s是在YAGO2的基础上扩展了本体库的规模，本发明用YAGO2s这个大本体库来对专利文档查询扩展进行支撑。

发明内容

为了克服现有技术的不足，本发明提供一种针对专利文档内容的结构特性和领域特性点，能有效理解用户的查询意图，并利用现有的高质量的大本体对初始查询进行语义扩展，提高检索性能的基于YAGO2s的专利文档查询扩展方法。

本发明解决其技术问题所采用的技术方案是：一种基于YAGO2s的专利文档查询扩展方法，按以下步骤进行：

第一步：从专利数据集中获取专利文档的内容并分析得到带有权重的专利文档概念术语；

第二步：将专利文档按国际专利(IPC)分类号的“分组”部分进行分类；

第三步：构建专利文档索引；

第四步：基于改进TF-IDF方法对第二步中处理得到的各个类别构建专利文档领域概念词典；

第五步：查询输入分析及构建，得到初始查询的查询概念；

第六步：根据查询输入的国际专利分类对应的领域概念词典对初始查询补充其“领域特性”，选取topM个领域词典中的概念进行查询扩展；

第七步：将YAGO2s作为外部查询扩展源，选取topN个扩展概念进行语义概念查询扩展，产生初始查询的扩展概念；

第八步：查询重构，将初始查询和扩展查询进行融合，组成最终查询；其中第四步中改进TF-IDF方法得到概念词汇t在领域中的重要度W_t,d公式为

Wt, d = \frac{{tf}_{t, d} * \log (\frac{N}{n_{d}} + 0.001) * E_{t}}{\sqrt{Σ_{t &Element; d} {[{tf}_{t, d} * \log (\frac{N}{n_{d}} + 0.001) * E_{t}]}^{2}}} .

进一步的，第一步中专利文档采用NTCIR-6数据集中的美国专利商标局(USPTO)专利文档。

进一步的，第一步专利文档中标题的权重为0.1，摘要的权重为0.2，权利要求书的权重为0.3，说明书的权重为0.5。

进一步的，第五步中查询输入分析及构建包括以下步骤：

1)分析专利文档的内容确定专利语块单元；

2)对专利语块单元中的专利文本片段进行解析；

3)确定专利文本片段中的词性；

4)过滤专利文本片段中的停用词；

5)形成查询词；

6)从查询词中提取反映用户查询意图的查询概念，构建成初始查询。

本发明的有益效果是，针对专利文档的特点，提出一种基于YAGO2s本体库的语义查询扩展的专利文档检索方法，其结合专利文档的结构特性和领域特性，对查询进行语义分析，利用领域和外部知识，在语义层面上对初始查询概念进行扩展，改进了TF-IDF方法，克服了TF-IDF方法的局限性和不足，更有效地反映单词的重要程度和特征词的分布情况，使其很好地完成对权值调整的功能，有效地理解用户的查询意图，可以比较好的提高检索的性能。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明的专利文档检索整体框架图。

图2为专利文档样本。

图3为向量空间模型。

图4为YAGO2s本体库。

图5为实体speaker关系图。

图6为实体speaker(wordnet)关系图。

图7为不同扩展概念数量性能比较。

具体实施方式

为了使本技术领域的人员更好的理解本发明方案，下面将结合本发明实施例中的附图，对发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

针对专利文档的检索查询扩展，前提是必须了解和明确专利文档的特点，以及用户对专利文档的检索需求，还有专利检索的特点。本发明首先分析专利文档在结构和内容上的特点，然后分析专利检索的用户群及用户行为习惯，接着分析专利检索的特点，最后介绍了本发明提出的基于语义查询扩展的专利文档检索框架。整体框架图如图1所示。

一种基于YAGO2s的专利文档查询扩展方法，按以下步骤进行：

第一步，从专利数据集中获取专利文档的内容并分析得到带有权重的专利文档概念术语。获取的内容包括结构化的和非结构化的信息，将获取的专利文档内容进行预处理，经过分词、停用词过滤、词干提取等一系列过程的处理，最终得到带有权重的文档概念术语。

现有的专利文档大多数都是以HTML、XML、TIFF、TEXT等格式存储的。文档结构定义文档的基本元素和组织结构，一些规范化的结构有利于文档元素的提取。本发明采用的NTCIR-6数据集主要由100多万美国专利文档组成文件中还存储了非结构信息，该数据集中的大量专利文档都存储在几个txt格式的文件中，每个txt文件中包含十几万个专利文档信息。如图2所示，每个专利文档以<DOC>标签开始，并以</DOC>标签结束。在专利文档的开始部分，<DOCNO>标签中包括该专利文档的一个唯一的标识符，<PRI-IPC>标签中的是IPC分类号(每份专利文档只有一个IPC分类标识，共覆盖38491个IPC小组分类)，<INVENTOR>标签中的是发明人，其他还包括标题(<TITLE>)、摘要(<ABST>)、权利书(<CLAIM>)、说明书(<SPEC>)等。一个专利文档的结构化信息主要包括IPC分类号、发明人、发布日期等，非结构化信息主要是4部分：标题(Title)、摘要(Abstract)、权利要求书(Claims)、说明书(Description)。本发明将根据txt文件的结构特征，提取各部分的内容。

在对专利文档建立索引之前，首先确定对专利文档的哪几个部分的内容进行内容提取。Xue等人的研究表明，选取专利文档中的不同部分作为内容提取来源对之后的检索效果影响比较大，因此从不同部分提取出的内容应该赋以不同的权重。

专利文档经过预处理过程之后，得到专利文档中各部分内容，作为后续处理过程的内容基础。

第二步，将专利文档按国际专利(IPC)分类号的“分组”部分进行分类。

第三步，构建专利文档索引，使用全文搜索引擎(Lucene)对前两步得到的结构化信息构建索引，是在线查询检索的基础。

第四步，基于改进TF-IDF方法对第二步中处理得到的各个类别构建专利文档领域概念词典。通过文档词频逆文档频率(TF-IDF)，并进一步进行自然语言处理和统计分析，得到领域概念及其权重，最终形成领域概念词典。

本发明的专利文档分类是基于IPC分类号的，因此专利文档领域概念词典的构建也是基于IPC的，即对每个IPC类构建相应的领域概念词典。领域概念词典是对IPC分类的概念描述。领域概念词典的构建的一个离线处理过程，主要是利用自然语言处理技术对专利文档进行处理，构建针对各个专利领域的概念词典。

专利文档的非结构化内容，如“描述”，是由一系列的句子及段落构成的，如“Pharmaceutical compositions based onanticholinergically effective compounds and beta-mimetics.”。而继续往细分，一个文本文档总是由一系列的单词(项)组成的，几个项连接在一起，就构成了一个短语。

向量空间模型表示法是一种最常用的表示文档的方法，如图3所示。在向量空间模型中，文档用单词向量来表示，而单词向量由文档中的单词和单词的相对权重构成。单词向量是一种表示与项目相关的元数据的方式。每个单词的相对权重是词频(Term Frequency)，TF)和逆向文档频率(Inverse Document Frequency，IDF)这两项。目前的统计方法中，通常使用TF-IDF公式来计算词频和逆文档频率。

TF-IDF是文本处理领域应用最广泛的一种权重计算方法，用于评估单个词汇对于语料库中单个文档的重要程度。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类；某个词在语料库中出现的文档数越多，该词项对这类文档的区分能力越差。经典的TF-IDF方法如下：

第一，计算词频TF。在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。对于在某一特定文件里的词语ti来说，它的重要性可表示为公式(1)：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

公式(1)

以上式子中n_i,j是该词在文件dj中的出现次数，而分母则是在文件dj中所有字词的出现次数之和。

第二，计算逆文档频率IDF。逆向文件频率(inverse documentfrequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到，如公式(2)所示：

{idf}_{i} = \log \frac{| D |}{| {j : t_{i} &Element; d_{j}} |}

公式(2)

其中，|D|指的是语料库中的文件总数，|{j:ti∈dj}|指的是包含词语ti的文件数目(即ni,j≠0的文件数目)，如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用1+|{j:ti∈dj}|。

第三，计算TF-IDF。如公式(3)所示：

tfidf_i,j＝tf_i,j×idf_i 公式(3)

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

TF-IDF方法的优点是简单快速，结果比较符合实际情况。但它有很多的局限性及不足。TF-IDF方法是建立在一个假设之上的：对区别文档最有意义的词语是那些在文档中出现频率高，而在整个文档集合的其他文档中出现频率少的词语，所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力，TF-IDF法认为一个单词出现的文本频数越小，它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度，并用它完成对权值TF的调整，调整权值的目的在于突出重要单词，抑制次要单词。但是在本质上IDF是一种试图抑制噪声的加权，并且单纯地认为文本频率小的单词就越重要，文本频率大的单词就越无用，显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能，所以TF-IDF法的精度并不是很高。此外，在TF-IDF方法中并没有体现出单词的位置信息，对于Web文档而言，权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同，其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的权重，然后乘以特征词的词频，以提高文本表示的效果。

专利文档有一定的结构特征，主要包括标题、摘要、权利要求书、说明书这4个字段，有研究表明，这4个部分对整个专利文档所占的重要度不同，因此从这4部分提取出的概念词汇应该给予不同的权重。本发明在基于IPC的分类基础上，结合专利文档的特点改进TF-IDF方法来构建领域概念词典。在专利文档中，标题字段一般被认为是比较有代表性的能够反映专利的特征，但因为各个专利的标题字段相似度太高，故不能很好的区分专利文档，反而权重最低。摘要字段，最准确的概述了专利文档的内容，从而被赋予最高的权重。说明书是由技术人员撰写的表征专利技术用途的，它往往显得相对精简和准确，可以认为其中的词汇可以帮助提高检索结果准确率，被赋予较高的权重。权利要求书字段所包含的内容最多，但在相关研究的对比实验中并没有得到很好的评价，且数据量大，影响实验的效率，故赋予较低的权重。有研究表明，查询输入专利的不同部分内容(标题、摘要、权利要求书、说明书)对检索性能的重要度不一样，这四部分的权重分别取0.1、0.2、0.3、0.5时，检索性能达到最优。

本发明使用的NTCIR-6数据集中的专利文档，它的IPC类别只有一个，即一个专利只属于一个IPC类别，如“A47L 11/14”，这个类别反映了专利文档所属的特定领域。一些领域相关的术语它们出现的频率不高，但它们可能是对区分不同的领域是十分重要的，这个情况是与传统的TF-IDF方法相悖。因此，本发明对初始的TF-IDF方法进行一些改进，引入概念对类别的权重及概念类别之间的条件概率。

考虑这些情况后，本发明引入信息熵的概念，用来改进TF-IDF方法，首先给出如下两个解释：

解释一：文档集合D包含概念t，t属于类别集合m(C1，C2，···，Cm)，那么概念t在m中的概率分布为P＝{P(C1|t)，P(C2|t)，···P(Cm|t)}，这里P(Ci|t)表示t属于Ci中的条件概率。记E_bc(t)为概念t的类别间分布熵，如公式(4)所示：

E_{bc} (t) = - Σ_{i = 1}^{m} P (c_{i} | t) \log P (c_{i} | t)

公式(4)

解释二：类别c包含了n个文档，记为(d1，d2，···，dn)，那么概念t在类别c中的概率分布为P＝{P(d1|t)，P(d2|t)，···P(dn|t)}，这里P(di|t)表示t在文档di中的条件概率。记E_ic(t)为概念t的类别内分布熵，如公式(5)所示：

E_{ic} (t) = - Σ_{i = 1}^{n} P (d_{i} | t) \log P (d_{i} | t)

公式(5)

一方面，如果各类别专利的概念词汇分布越均匀，那么E_bc(t)将越大，即概念词汇区分不同类别的能力将越小。另一方面，如果在某一个类别中概念词汇分布越均匀，那么E_ic(t)将越大，即概念词汇对该类别的区分能力将越大。因此，本发明采用最大熵原理来进一步将类别间分布熵E_bc(t)和类别内分布熵E_ic(t)结合起来，得到概念词汇类别分别熵E_t，如公式(6)所示：

E_{t} = (1 - \frac{E_{bc} (t)}{E_{bcm} (t) + μ}) * E_{ic} (t)

公式(6)

此处，将E_bcm(t)＝log2m作为E_bc(t)的最大值，m是包含概念词汇t的类别总数，即当P(Ci|t)等于1/m时，概念词汇均匀分布在每一个类别中，此时E_bcm(t)将取得最大值。引入平滑因子μ来避免m＝1的情况，为了不影响计算效果，μ需要尽量的小，此处取μ＝0.001。

最后，在以上基础上，得到改进过的TF-IDF公式为公式(7)：

Wt, d = \frac{{tf}_{t, d} * \log (\frac{N}{n_{d}} + 0.001) * E_{t}}{\sqrt{Σ_{t &Element; d} {[{tf}_{t, d} * \log (\frac{N}{n_{d}} + 0.001) * E_{t}]}^{2}}}

公式(7)

对各领域内专利文档的文本特征词汇进行统计计算，得出了词汇在领域中的重要度W_t,d，也就是词汇表达领域特征的能力。最终把每个领域文本中词汇的TF-IDF值进行降序排序，从中选取大于一定阈值p的名词和动词作为特征词，以特征词向量构建成领域词表，即能表达领域特征的词汇表。最后每一个领域都被表示成一个领域概念词汇及其权重的集合。

以上四步为离线索引过程，其目的是为了给之后的在线检索过程提供资源和语料库支持。

第五步，查询分析及构建，得到初始查询的查询关键词。对用户的输入查询进行分析，由于本发明的用户输入是一个专利文档，因此这一步处理和离线索引部分的第一步类似，最终得到初始查询的查询关键词。

专利查询通常是一个长查询输入，一般包括10-100个查询词汇输入，甚至是整个专利查询作为查询输入(如专利审查的情况)。主题查询输入通常为专利申请书，本发明即以整个专利文档作为查询输入，这样的查询输入非常长，必然包括了较多的冗余概念，这直接影响到检索结果的查准性及查全性。因此，本发明结合专利长查询的特点，对查询输入进行分析、查询候选概念提权、查询概念重要度计算等步骤，最终构建合适的初始查询。

查询分析的过程和专利文档的内容分析模块中对专利文档的处理大致相同，即对查询输入专利文档进行自然语言处理分析，将查询中自然语言片段解析成可识别的关键词，过滤掉查询中的无意义的词，并对其中的名字复数和动词时态变化等情况进行词干提取，过滤后的3种类型的词汇被认为是有意义的查询词，分别是名词、动词、形容词，并对查询词进一步计算其权重，根据权重大小确定关键查询词。

经过查询分析后，需要从上一步获得的查询词集合中提取能体现用户意图的候选概念。一个概念可以是一个单词或者是包含多个单词的短语，它是文本中有意义的语法表达单元。

在现有长查询检索研究中，名词短语作为候选关键概念被证明是可信的。而且查询中的名词短语一般可以分为如下几类：人名、地名或机构名等专有名词。

有研究表明，查询输入专利的不同部分内容(标题、摘要、权利要求书、说明书)对检索性能的重要程度不一样，这四部分的权重分别取0.1、0.2、0.3、0.5时，检索性能达到最优。这主要是因为与其它字段相比，说明书部分的技术语言表达，不像权利要求书那样采用太多的专用术语。而标题字段是四部分中最短的，含有的查询信息最少，故其权重最低。

第六步，根据查询输入的国际专利分类对应的领域概念词典对初始查询补充其“领域特性”，选取topM个领域词典中的概念进行查询扩展。

第七步，查询扩展。将YAGO2s作为查询扩展源，选取topN个扩展概念进行语义概念查询扩展，产生初始查询的扩展概念。在基于领域概念词典的查询扩展的基础上，利用现有的外部大本体YAGO2s作为外源知识库，对初始查询概念做进一步的语义扩展。

查询扩展技术是改善信息检索中查全率和查准率的关键技术之一。查询扩展指的是利用计算机语言学、信息学、统计学等多种技术，把与原查询相关的词语或者与原查询语义相关联的概念以一定的组合方式添加到原查询中，得到比原查询更长更有意义的新查询(或者叫扩展查询)。然后按新查询检索文档，以改善信息检索的查全率和查准率，解决信息检索领域长期困扰的词不匹配问题，充分理解用户的查询意图，当然，扩展查询可能同时也带来了与初始查询不相关的扩展词汇，导致误匹配问题，这种情况应该尽量避免。

目前主流的不同研究角度的查询扩展方法主要是如下3种：

1)关键词查询扩展技术；

2)查询词权重调整技术；

3)语义概念查询扩展技术。

本发明将使用第三种技术来进行查询扩展，并选择YAGO2s作为查询扩展源。

从YAGO官网下载最新的YAGO2.5(tsv格式)后，得到如图4所示的整个YAGO。本发明针对专利文档的检索的特点，分析每一个tsv文件的内容后，选取yagoLiteralFacts.tsv、yagoWordnetIds.tsv、yagoWordnetDomains.tsv、yagoWikipediaInfo.tsv、yagoSimpleTaxonomy.tsv等作为本文提出检索框架的查询扩展外源，其他几个tsv文件，诸如yagoGeonamesData.tsv包含的是地理空间信息，yagoMultilingualClassLabels.tsv包含的是非英语的标签信息等，这几个文件与专利的相关性不大。

YAGO的事实(fact)中的关系(relation)的种类很多，并不是所有的关系都适用于专利的查询扩展，如出生年(bornInYear)关系、家族姓名(familyNameOf)关系、曾经获得奖项关系(hasWonPrice)、死亡年(diedInYear)关系等。本发明选取了几个专利检索中典型的几个关键词进行反复探索，进而来确定哪些关系是对专利查询扩展有效的。选取的关键词有“computer”、“cache”、“chuck”、“tv”、“speaker”等120多个。下面以“speaker”(扬声器)为例介绍探索的过程，该过程借助YAGO提供的YAGO浏览器来完成。如图5所示，speaker的直接关系有“skos:preLabel”、“isPreferredMeaningOf”、“rdfs：label”、“hasWikipediaAnchorText”。从关系另外一边连接的实体可以看出，这之中无用的关系是“hasWikipediaAnchorText”，其他3个关系是可利用的。

从“rdfs:label”关系进入实体“wordnet_speaker_110630188”，得到其关系图，如图6所示。经过分析，关系“hasGloss”是对实体进行文字解释，这些注释可以被用来进行专利查询概念扩展；关系“subClassOf”则描述了speaker的子父类层次关系，这些也可以用于查询扩展；关系“hasSynsetId”给出了speaker的同义词集合，也是非常适合用户查询扩展的。

经过多个例子的分析，最终从YAGO中选取了如表1所示的关系作为查询扩展源。

关系名称	意义
		hasGloss	有注释
hasSynsetId	有同义词集合
		isPreferredMeaningOf	是某实体的优先含义
subClassOf	子(父)类
		prefLabel	优先标签
hasTitleText	有标题文本
		rdf:type	类型
rdfs:label	标签
		hasWikipediaAnchorText	有***锚文本
。。。。。。	。。。。。。

表1为YAGO中可用于专利查询扩展的关系

由于原查询专利文档带有IPC分类号，故首先从相应类别的领域词典中将权重最高的概念添加到原查询概念中，丰富原查询概念。这么做是因为专利撰写人在进行专利申请时，常故意使用一些模糊词汇，甚至是自创新词，以避免侵权或则在“领域”内保持独创性，在这个过程中，专利文档会失去一些“领域特性”，故需要补充其“领域特性”，增加该“领域”的特征词。

在上述得到“原查询概念”的YAGO体系结构层次中，假设各个边权重相等，则在语义距离相等的情况下，距离根节点远的概念间的相似度要比距离根节点近的概念间的语义相似度高。所以边权重的大小应该随其所在YAGO层次树中的深度的变化而变化，深度越深，权重越小。以原查询概念为根，遍历上边列出的所有关系，然后递归遍历关系(如子类)的关系，不同层级赋予不同的权重，最终得到查询按TF-IDF计算概念频度对扩展概念集合排序，选取topN个扩展概念用于查询扩展。

第八步，查询重构。结合初始查询与扩展查询，融合初始查询概念及其权重、扩展概念及其权重来进行查询重构，将初始查询和扩展查询进行融合，组成最终查询。

以上四步为在线检索过程，其目的是充分理解用户查询的意图，返回所有与用户查询输入相关的专利文档。

为了验证本发明方法的有效性，本发明设计了两组实验，分别探索扩展概念数量对检索性能的影响及验证整个框架的多个模块的实验效果，并采用和其他已有方法进行对比来说明本文方法的有效性。实验中的数据我们采用了NTCIR-6英文专利检索子任务的专利文档。

查全率(Recall)和查准率(Precision)是信息检索领域内常用的两个性能评价指标，二者分别反映检索效果的召回率和准确率。此外，在平均准确率(MAP，Mean Average Precision)是为了解决查全率、查准率、F-measure的单点值局限性而产生的，它是一个面向查准率的度量，能够反映全局性能的指标，在本发明中，它能够反映***在所有相关文档上的性能，***检索出来的相关文档越靠前，平均准确率就越高。它们的解释如下：

查全率(R)：表示结果集中的与查询输入相关的专利文档数与数据集中的所有相关文档数的比率，用来衡量检索的全面性。公式如公式(8)所示：

公式(8)

查准率(P)：表示结果集中的与查询输入相关的专利文档数与结果集中的所有专利文档数的比率，用来衡量检索的准确性。公式如公式(9)所示：

公式(9)

平均准确率(MAP)：反映***在所有相关文档上的性能。对于单个主题，MAP是每一个相关专利文档在检索结果集中的准确率的平均值。全集的MAP是每个主题的MAP的平均值。MAP的值为0当且仅当返回结果集中没有相关文档。公式如公式(10)所示：

MAP = (Σ_{i = 1}^{n} \frac{i}{R_{i}}) / n

公式(10)

结合专利检索的特点，本发明还引入一种面向专利检索特性的度量标准PRES(Patent Retrieval Evaluation Score)作为另一项准，其计算公式如公式(11)所示：

PRES = 1 - \frac{\frac{Σ r_{i}}{n} - \frac{n + 1}{2}}{N_{\max}}

公式(11)

其中，ri表示表示第i个被检索到的相关文档的排序号；n表示整个预料库与查询相关的文档的数目；Nmax表示被用户检查的最大文档数。由于现有的度量如MAP本质上还是偏好查准率的，因此对专利检索评估可能有一定的误导，评估并不充分。而PRES更侧重在查全率和排序的质量，并且Magdy和Jones通过实验证明该度量对专利长查询评估更为有效。

为了检验扩展概念的数量对查询扩展方法的性能有效性的影响，本发明在NTCIR-6数据集上进行多次实验，分别采用20、40、60、80、100个扩展概念数量进行实验，观察YAGO2s的查询扩展方法的RECALL指标，QE指的是查询扩展(Query Expansion)，来进行对比观察，实验结果如图7所示。

通过图7可以观察到，采用大约60个扩展概念即可获得比较好的性能。

接着本发明选用浙江大学博士论文“工程文档语义标注与检索中若干关键问题研究”中的相应实验结果与本发明的实验结果进行对比，鉴于该文也使用了NTCIR-6数据集。针对不同外部源的查询扩展方法带来的检索性能的提升进行实验对比，本发明通过对比基于伪相关反馈的查询扩展方法(QE_PRF)、基于WordNet的查询扩展方法(QE_WN)、基于***的查询扩展方法(QE_WK)、基于语义查询扩展的专利文档检索方法(结合领域词典及YAGO2s等技术)的查询扩展方法(QE_SM)，QE指的是查询扩展(Query Expansion)，来进行对比观察，以便观察本文的查询扩展方法在性能上是否有所提升。比较结果如表2所示：

表2为不同源查询扩展方法性能比较

从表2中可以看到，无论是在准确率、召回率还是平均准确率上，本发明提出的检索框架的性能是最好的。常见的检索查询扩展领域最为流行的伪相关反馈方法在性能上表现比较差，因为PRF认为第一次检索返回的前TOP个专利文档都是跟初始查询相关的，但是殊不知，在将这些“相关文档”引用进来的同时，势必会引入很多不相关的扩展词汇，在降低检索的速度的同时，检索效率却只有一点点的提升，而且在一些情况下，引入过多的无关词汇，甚至还会降低检索的性能。基于***和WordNet的查询扩展方法和基于语义查询扩展的专利文档检索方法都对检索性能有着很大的提高。WordNet注重的是查询概念的同义词、下位词等，***则注重主题的相关链接，而YAGO2s更是涵盖了很多准确的事实及关系，通过初始查询概念可以延伸到各个方面关系的事实形成扩展概念，可以很好地理解用户的查询用途。实验证明，这两种查询扩展模型是有效的，能够显著地改善和提高专利文档的检索性能。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于YAGO2s的专利文档查询扩展方法，其特征是按以下步骤进行：

第二步：将专利文档按国际专利(I PC)分类号的“分组”部分进行分类；

第三步：构建专利文档索引；

第四步：基于改进TF-I DF方法对第二步中处理得到的各个类别构建专利文档领域概念词典；

第五步：查询输入分析及构建，得到初始查询的查询概念；

第八步：查询重构，将初始查询和扩展查询进行融合，组成最终查询；

其中，第四步中改进TF-IDF方法得到概念词汇t在领域中的重要度W_t,d公式为

Wt, d = \frac{{tf}_{t, d} * \log (\frac{N}{n_{d}} + 0.001) * E_{t}}{\sqrt{Σ_{t &Element; d} {[{tf}_{t, d} * \log (\frac{N}{n_{d}} + 0.001) * E_{t}]}^{2}}} .

2.根据权利要求1所述的基于YAGO2s的专利文档查询扩展方法，其特征在于：第一步中专利文档采用NTCIR-6数据集中的专利文档。

3.根据权利要求1所述的基于YAGO2s的专利文档查询扩展方法，其特征在于：第一步专利文档中标题的权重为0.1，摘要的权重为0.2，权利要求书的权重为0.3，说明书的权重为0.5。

4.根据权利要求1所述的基于YAGO2s的专利文档查询扩展方法，其特征在于：所述第五步中查询输入分析及构建包括以下步骤：

1)分析专利文档的内容确定专利语块单元；

2)对专利语块单元中的专利文本片段进行解析；

3)确定专利文本片段中的词性；

4)过滤专利文本片段中的停用词；

5)形成查询词；