CN108268535A

CN108268535A - 一种基于知网HowNet的查询扩展方法和装置

Info

Publication number: CN108268535A
Application number: CN201611265757.9A
Authority: CN
Inventors: 陈城; 胡振宇; 陶云祥
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10

Abstract

本发明公开了一种基于知网HowNet的查询扩展方法，包括：获取初始查询词，检查初始查询词是否属于HowNet的词条，属于HowNet的词条，则确定初始查询词对应的词条的词性，词条的词性为实词，则提取词条的语义信息；对语义信息进行解析，确定语义信息包含的第一基本义原项，或确定语义信息包含的第一基本义原项，以及以下信息的至少一种：其他基本义原项、关系义原项和关系符号项；基于语义信息的解析结果和预设的词集确定规则确定词条对应的初始扩展词集；计算初始查询词与初始扩展词集中每个初始扩展词之间的语义相似度值，筛选出语义相似度值大于设定阈值的词作为最终的扩展词集。本发明还公开了一种基于知网HowNet的查询扩展装置。

Description

一种基于知网HowNet的查询扩展方法和装置

技术领域

本发明涉及搜索技术，尤其涉及一种基于知网HowNet的查询扩展方法和装置。

背景技术

大数据分析广泛应用于网络数据挖掘，可从用户的搜索关键词、标签关键词、或其他输入语义，分析判断用户需求，实现更好的用户体验和广告匹配。搜索引擎将文档等非结构化海量数据通过建立索引来对外提供服务，其核心是汉语词法分析***(ICTCLAS)，通过对自然语言、数字、日期、字符串等进行检索，建立索引。当用户进行检索时，基于索引，搜索引擎将这些数据聚合，提供给用户，从而构建搜索引擎的服务。

查询扩展则是词法分析的一种，目前应用较多的有全局分析、局部分析、局部上下文分析等方法。

基于全局分析的查询扩展方法，包括：对全部文档中的词进行相关分析，并根据共现率等构造叙词表，最后从该表中选取和初始查询关联程度较高的词加入到扩展词集中。该方法假设在扩展时文档集中相关的两个词往往同时出现。此方法不依赖于初始查询的全局知识库，而是需要所有文档集的统计信息如共现率等，或经过自动或人工创建的关联性词表，找到与原始查询相似性最高的词从而提高检索性能。

基于局部分析的查询扩展方法是通过两次查询检索来完成查询扩展；可以包括：检索获得前n篇与初始查询最相关的文档集得到扩展词集，再根据扩展词集进行检索，获得检索结果。

局部上下文分析方法是通过分析词共现率来筛选与初始查询相关的扩展词。共现率是指上下文中的两个词语共同出现的频率。当一个词和原始查询的共现率越大，则认为该词和原始查询的相关度就越高。可以包括：根据局部分析的方法检索得到与原始查询最相关的前n篇段落；通过处理此n篇文档得到与原始查询最相关的词；对相关度进行降序排列，把前n个词通过1.0-0.9*i/m进行加权加入到扩展词集中，其中i为备选词的序列，m为段落集数目。

上述方法分别具有以下缺点：

基于全局分析的查询扩展方法由于计算量大，比较适用于小范围的文献检索，不适合海量数据检索，虽能提高查全率，但查准率会降低，且查询效率较低。该方法在实际应用中效果不理想，主要原因是其聚类算法不能解决词的歧义性问题。当查询词有多种意思时，该方法会将同一个词加入到多个不同的聚类中，从而造成计算量过大、检索性能下降等后果。

基于局部分析的查询扩展方法处理的文档数相对较少，所以计算量也较少，效果比较稳定。该方法的不足之处在于，假如初始检索得到的文档和原查询的关联度不高，则经过扩展后的检索结果反而不好；由于该方法对实时处理较难实现，应用在web上可能性不大。

局部上下文分析方法仅处理排名靠前的段落，所以计算量比全局分析要小得多。但也有缺点，假如初次查询返回的文档与原始查询无关，那会出现扩展词集中有与原始查询无关的词的情况；另外，对于多义词的情况，此方法处理的效果不是很好。

发明内容

有鉴于此，本发明实施例期望提供一种基于知网HowNet的查询扩展方法和装置，获得更为准确、质量更高的扩展词集，提高检索效率和准确率。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供了一种基于知网HowNet的查询扩展方法，所述方法包括：

获取初始查询词，检查所述初始查询词是否属于HowNet的词条，属于所述HowNet的词条，则确定所述初始查询词对应的词条的词性，所述词条的词性为实词，则提取所述词条的语义信息；

对所述语义信息进行解析，确定所述语义信息包含的第一基本义原项，或确定所述语义信息包含的第一基本义原项，以及以下信息的至少一种：其他基本义原项、关系义原项和关系符号项；基于语义信息的解析结果和预设的词集确定规则确定所述词条对应的初始扩展词集；

计算所述初始查询词与所述初始扩展词集中每个初始扩展词之间的语义相似度值，筛选出语义相似度值大于设定阈值的词作为最终的扩展词集。

上述方案中，所述语义信息，包括：词、词性和词条的描述；

所述确定所述初始查询词对应的词条的词性，包括：

在HowNet中获取所述初始查询词对应的词条的语义信息，从所述词条的语义信息中获取所述词条对应的词性。

上述方案中，所述对所述语义信息进行解析，包括：

获取所述词条的描述，基于所述词条的描述依次进行以下处理：

判断是否以括号开始和结尾，是则将括号内的词确定为具体词；否则继续判断是否包含等号，包含等号则将包括的词确定为关系义原项，作为关系义原集；

没有包含等号则确定第一部分的首字符，如果所述首字符是关系符号中的一个，则将包括的词确定为关系符号项，作为关系符号义原集；如果包括除括号外的其他特殊符号中的一个，则将特殊符号内的词确定为虚词，不做扩展；如果均不是，则确定为义原项，作为义原集；

根据确定的所述具体词、所述义原集、所述关系义原集、所述关系符号义原集，确定第一基本义原项的义原集、其他基本义原项的义原集、关系义原项的义原集和关系符号项的义原集。

上述方案中，所述基于语义信息的解析结果和预设的词集确定规则确定所述词条对应的初始扩展词集，包括:

依次判断所述词条的描述中是否包含其他基本义原项、关系义原项或关系符号项；

所述词条的描述中包含其他基本义原项，则直接将第一基本义原项与所述其他基本义原项的义原集作为所述初始扩展词集；

所述词条的描述中包含关系义原项但不包含其他基本义原项，则提取第一基本义原项与所述关系义原项的义原集作为初始扩展词集；

所述词条的描述中包含关系符号项但不包含其他基本义原项和关系义原项，则提取第一基本义原项与所述关系符号项的义原集作为初始扩展词集；

所述词条的描述中不包含所述其他基本义原项、所述关系义原项和所述关系符号项，则提取第一基本义原项的义原集作为初始扩展词集。

上述方案中，所述计算所述初始查询词与所述初始扩展词集中每个初始扩展词之间的语义相似度值，包括：

获取所述初始查询词和所述初始扩展词对应的词条的第一基本义原项，或者获取对应的词条的第一基本义原项，以及其他基本义原项、关系义原项和关系符号项中至少一个；

确定所述第一基本义原项的相似度值，或者确定第一基本义原项的相似度值、以及所述其他基本义原项的相似度值、所述关系义原项的相似值和所述关系符号项的相似度值中至少一个；

根据确定的相似度值确定所述初始查询词与所述初始扩展词之间的语义相似度值。

本发明实施例提供了一种基于知网HowNet的查询扩展装置，所述装置包括：第一处理模块、第二处理模块和第三处理模块；其中，

所述第一处理模块，用于获取初始查询词，检查所述初始查询词是否属于HowNet的词条，属于所述HowNet的词条，则确定所述初始查询词对应的词条的词性，所述词条的词性为实词，则提取所述词条的语义信息；

所述第二处理模块，用于对所述语义信息进行解析，确定所述语义信息包含的第一基本义原项，或确定所述语义信息包含的第一基本义原项，以及以下信息的至少一种：其他基本义原项、关系义原项和关系符号项；基于语义信息的解析结果和预设的词集确定规则确定所述词条对应的初始扩展词集；

所述第三处理模块，用于计算所述初始查询词与所述初始扩展词集中每个初始扩展词之间的语义相似度值，筛选出语义相似度值大于设定阈值的词作为最终的扩展词集。

所述第一处理模块，具体用于：在HowNet中获取所述初始查询词对应的词条的语义信息，从所述词条的语义信息中获取所述词条对应的词性。

上述方案中，所述第二处理模块，还用于：获取所述词条的描述，基于所述词条的描述依次进行以下处理：

上述方案中，所述第二处理模块，具体用于：依次判断所述词条的描述中是否包含其他基本义原项、关系义原项或关系符号项；

上述方案中，所述第三处理模块，具体用于获取所述初始查询词和所述初始扩展词对应的词条的第一基本义原项，或者获取对应的词条的第一基本义原项，以及其他基本义原项、关系义原项和关系符号项中至少一个；

与现有技术相比，本发明提供的基于HowNet的查询扩展方法和装置，获取初始查询词，检查所述初始查询词是否属于HowNet的词条，属于所述HowNet的词条，则确定所述初始查询词对应的词条的词性，所述词条的词性为实词，则提取所述词条的语义信息；对所述语义信息进行解析，确定所述语义信息包含的第一基本义原项，或确定所述语义信息包含的第一基本义原项，以及以下信息的至少一种：其他基本义原项、关系义原项和关系符号项；基于语义信息的解析结果和预设的词集确定规则确定所述词条对应的初始扩展词集；计算所述初始查询词与所述初始扩展词集中每个初始扩展词之间的语义相似度值，筛选出语义相似度值大于设定阈值的词作为最终的扩展词集。通过本发明实施例提供的方法和装置，根据初始查询词从HowNet中获得相应的初始扩展词集，根据语义相似度计算方法确定初始查询词与初始扩展词之间的相似度值，经过筛选得到质量较高的最终扩展词集，提升了信息检索的准确率和效率。

附图说明

图1为本发明实施例提供的一种基于HowNet的查询扩展方法的流程示意图；

图2为本发明实施例提供的一种确定初始扩展词集的方法的流程示意图图；

图3为本发明实施例提供的另一种基于HowNet的查询扩展方法的流程示意图；

图4为本发明实施例提供的一种基于HowNet的查询扩展装置的结构示意图。

具体实施方式

本发明实施例中，获取初始查询词，检查所述初始查询词是否属于HowNet的词条，属于所述HowNet的词条，则确定所述初始查询词对应的词条的词性，所述词条的词性为实词，则提取所述词条的语义信息；对所述语义信息进行解析，确定所述语义信息包含的第一基本义原项，或确定所述语义信息包含的第一基本义原项，以及以下信息的至少一种：其他基本义原项、关系义原项和关系符号项；基于语义信息的解析结果和预设的词集确定规则确定所述词条对应的初始扩展词集；计算所述初始查询词与所述初始扩展词集中每个初始扩展词之间的语义相似度值，筛选出语义相似度值大于设定阈值的词作为最终的扩展词集

下面结合实施例对本发明再作进一步详细的说明。

图1为本发明实施例提供的基于HowNet的查询扩展方法的流程示意图；如图1所示，所述基于HowNet的查询扩展方法，包括：

步骤101、获取初始查询词，检查所述初始查询词是否属于HowNet的词条，属于HowNet的词条，则确定所述初始查询词对应的词条的词性，所述词条的词性为实词，则提取所述词条的语义信息；

具体地，所述知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

在Hownet中，与词汇的语义相对应的单位是概念或词，概念是对词汇语义的一种描述。一个词可以有多个概念，每个概念对应一个词性，但同一个词的不同概念的词性可能相同也可能不同，而概念又可以分解为若干义原，义原是用于描述一个实词的最小意义单位。

Hownet一共采用了个1500义原，可以进一步归属于基本义原，用来描述单个概念的语义特征；语法义原，用于描述词语的语法特征；关系义原，用于描述实词和实词之间的关系，类似于深层格语法中的格关系。

除了义原以外，Hownet中还用了一些符号来对概念的语义信息进行描述，如下表1所示，表1为Hownet中符号及其含义对照表：

表1

上述符号可以进一步分为几类：

一类是用来表示语义描述式之间的逻辑关系，称之为逻辑符号，包括以下几个符号：,～^；

另一类用来表示概念之间的关系，称之为关系符号，包括以下几个符号：#％$*+&@？！；

第三类包括几个无法归入以上两类的特殊符号：{}()[]。

具体地，所述检查所述初始查询词是否属于HowNet的词条，包括：

读取HowNet中所有的词条数据，并建立索引；获取输入的初始查询词，使用所述索引搜索相应的词条；未检索出相应的词条，则认为所述初始查询词不属于HowNet的词条；检索出相应的词条，则认为所述初始查询词属于HowNet的词条。

具体地，所述词条的语义信息，包括：词(word)、词性(type)和词条的描述(related)；

所述确定所述初始查询词对应的词条的词性，包括：

在HowNet中获取所述初始查询词对应的词条的语义信息，从所述语义信息中获取所述词条对应的词性。

步骤102、对所述语义信息进行解析，确定所述语义信息包含的第一基本义原项，或确定所述语义信息包含的第一基本义原项，以及以下信息的至少一种：其他基本义原项、关系义原项和关系符号项；基于语义信息的解析结果和预设的词集确定规则确定所述词条对应的初始扩展词集；

具体地，所述语义信息的解析结果为确定的所述语义信息包含的第一基本义原项，或确定的所述语义信息包含的第一基本义原项，以及以下信息的至少一种：其他基本义原项、关系义原项和关系符号项。

所述词条的描述，可以包括以下信息的至少一种：第一基本义原项、其他基本义原项、关系义原项和关系符号项；

第一基本义原项，概念定义(DEF)中的第一个义原；其他基本义原项，DEF中除第一义原以外的所有其他义原项或具体词；

关系义原项，DEF中用“关系义原＝基本义原”或者“关系义原＝(具体词)”描述概念的部分；

关系符号义原项，DEF中用“关系符号基本义原”或者“关系符号(具体词)”描述概念的部分。

具体地，所述对所述语义信息进行解析，包括：

图2为本发明实施例提供的一种确定初始扩展词集的方法的流程示意图；如图2所示，所述对所述语义信息进行解析，可以包括：

获取所述词条的描述，基于描述依次进行以下处理：

(1)判断是否以括号开始和结尾，如(Bahrain|巴林)，则将括号内的实词确定为具体词项，将其提取出来作为具体词；否则继续判断是否包含等号；

(2)如果包含等号“＝”，则确定为关系义原项，将其提取出来作为关系义原集；以上可以用符号“，”进行分隔处理；

(3)如果既不是具体词也无等号“＝”，则对其用符号“|”进行分割处理，并根据第一部分内容的首字符进行判断；

a)如果是关系符号，即“#％$*+&@？！”中的一个，则为关系符号项，将其提取出来作为关系符号义原集；

b)如果是特殊符号，即“{}[]”中的一个，则将特殊符号内的词确定为虚词，因为虚词不作扩展，所以直接结束初始扩展；

c)如果都不是，则为义原项，将其提取出来作为义原集；

将获取的所述具体词、所述义原集、所述关系义原集和所述关系符号义原集整合，确定初始扩展词集。

具体地，所述基于语义信息的解析结果和预设的词集确定规则确定所述词条对应的初始扩展词集，包括：

所述依次判断所述词条的描述中是否包含其他基本义原项、关系义原项或关系符号项之前，所述方法还包括：根据所述词条的描述确定所述词条对应的第一基本义原项、其他基本义原项、关系义原项和/或关系符号项。

步骤103、计算所述初始查询词与所述初始扩展词集中每个初始扩展词之间的语义相似度值，筛选出相似度值大于设定阈值的词作为最终的扩展词集。

具体地，所述计算所述初始查询词与所述初始扩展词集中每个初始扩展词之间的语义相似度值，包括：

具体来说，所述义原之间的相似度为两个义原的重合部分与各自的义原深度之和的比值；

所述计算所述初始查询词和所述初始扩展词集中每个初始扩展词的对应的义原之间的相似度；包括：

按下式(1)确定义原之间的相似度：

其中，CRP(p₁,p₂)为义原重合度(Contact Ratio of Primitive)，指义原p₁和p₂在义原层次结构中具有的相同父节点路径长度；Dep(p₁)、Dep(p₂)分别表示义原p₁、义原p₂的义原深度；

所述根据获得的相似度确定所述初始查询词与所述初始扩展词之间的语义相似度值，按下式(2)计算语义相似度：

其中，β_i(1≤i≤4)是可调节的参数，且有β₁+β₂+β₃+β₄＝1,β₁≥β₂≥β₃≥β₄，表示主要部分的相似度值对于次要部分的相似度值起到制约作用；

β₁和β_i相乘表示概念中第一基本义原项的相似度对其他部分的相似度起制约作用，Sim₁(S₁,S₂)表示根据公式(1)获得的两个概念(实词)的第一基本义原之间的相似度值，Sim_i(S₁,S₂)表示所述其他基本义原项、所述关系义原项和所述关系符号项的相似度值。

这里，所述设定阈值可以是用户根据经验或检索精确度要求等预先设定。

图3为本发明实施例提供的另一种基于HowNet的查询扩展方法的流程示意图；如图3所示，所述方法包括：

步骤301、获取用户输入的初始查询词；

步骤302、检查该初始查询词是否包含在HowNet的词条中，如果是，则跳转到步骤303中，否则跳转到步骤301；

步骤303、提取该词条中的词性信息，并进行词性判断；如果是虚词，则不进行查询扩展，跳转到步骤301；如果是实词，则跳转到步骤304；

步骤304、提取该词条的语义信息，对语义信息进行解析，包含的第一基本义原项，或确定所述语义信息包含的第一基本义原项，以及以下信息的至少一种：其他基本义原项、关系义原项和关系符号项；

根据解析结果，判断该语义信息中有无其他基本义原项：

如果该语义信息中有其他基本义原项，则将第一基本义原项与其他基本义原项中的义原集作为初始扩展词集，并执行步骤305；

如果该语义信息中没有其他基本义原项，则判断该语义信息中有无关系义原项：

如果该语义信息中有关系义原项，则将第一基本义原项与关系义原项中的义原集作为初始扩展词集，并执行步骤305；

如果该语义信息中没有关系义原项，则判断语义信息中是否有关系符号项：

如果该语义信息中有关系符号项，则将第一基本义原项与关系符号项中的义原集作为初始扩展词集，并执行步骤305；

如果该语义信息中没有关系符号项，则仅将第一基本义原项中的义原集作为初始扩展词集，并执行305；

步骤305、根据语义相似度的计算方法计算初始查询词与初始扩展词之间的相似度值；

步骤306、筛选出相似度值较大的词作为最终的扩展词集；

步骤307、查询扩展结束。

图4为本发明实施例提供的一种基于知网的查询扩展装置的流程示意图；如图4所示，所述基于知网的查询扩展装置，包括：第一处理模块、第二处理模块和第三处理模块；其中，

具体地，所述语义信息，包括：词、词性和词条的描述；

具体地，所述第二处理模块，还用于：获取所述词条的描述，基于所述词条的描述依次进行以下处理：

具体地，所述第二处理模块，具体用于：依次判断所述词条的描述中是否包含其他基本义原项、关系义原项或关系符号项；

具体地，所述第三处理模块，具体用于获取所述初始查询词和所述初始扩展词对应的词条的第一基本义原项，或者获取对应的词条的第一基本义原项，以及其他基本义原项、关系义原项和关系符号项中至少一个；

这里，所述设定阈值可以是用户根据经验或检索精确度要求等预先设定并保存在装置内。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知网HowNet的查询扩展方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语义信息，包括：词、词性和词条的描述；

所述确定所述初始查询词对应的词条的词性，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述语义信息进行解析，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于语义信息的解析结果和预设的词集确定规则确定所述词条对应的初始扩展词集，包括:

5.根据权利要求1所述的方法，其特征在于，所述计算所述初始查询词与所述初始扩展词集中每个初始扩展词之间的语义相似度值，包括：

6.一种基于知网HowNet的查询扩展装置，其特征在于，所述装置包括：第一处理模块、第二处理模块和第三处理模块；其中，

7.根据权利要求6所述的装置，其特征在于，所述语义信息，包括：词、词性和词条的描述；

8.根据权利要求7所述的装置，其特征在于，所述第二处理模块，还用于：获取所述词条的描述，基于所述词条的描述依次进行以下处理：

9.根据权利要求8所述的装置，其特征在于，所述第二处理模块，具体用于：依次判断所述词条的描述中是否包含其他基本义原项、关系义原项或关系符号项；

10.根据权利要求6所述的装置，其特征在于，所述第三处理模块，具体用于获取所述初始查询词和所述初始扩展词对应的词条的第一基本义原项，或者获取对应的词条的第一基本义原项，以及其他基本义原项、关系义原项和关系符号项中至少一个；